2013-02-06 44 views
1

我使用Jersey生成RESTful服务,该服务生成UTF-8编码的答复。 下面的代码片段:HttpServletResponse生成损坏的UTF-8数据

public static class Data { 

    private String value; 

    public Data(String value) { 
     this.value = value; 
    } 

    public String getValue() { 
     return value; 
    } 

    public void setValue(String value) { 
     this.value = value; 
    } 
} 

@GET 
@Produces(MediaType.APPLICATION_JSON) 
public Response method() { 

    Data response = new Data("€"); 
    return Response.status(Response.Status.OK) 
        .type(MediaType.APPLICATION_JSON + ";charset=UTF-8") 
        .entity(response) 
        .build(); 
} 

它应该产生如下的答复:

{"value":"€"} 

或字节数组:

[123, 34, 118, 97, 108, 117, 101, 34, 58, 34, -30, -126, -84, 34, 125] 

注意,即欧元符号编码三字节-30,-126,-84或0xe2 0x82 0xac

然而,它产生以下响应

{"value":"â¬"} 

或字节数组:

[123, 34, 118, 97, 108, 117, 101, 34, 58, 34, -61, -94, -62, -126, -62, -84, 34, 125] 

。注意,欧元符号被编码为六个字节现在-61,-94,-62, -126,-62,-84或0xc3 0xa2 0xc2 0x82 0xc2 0xac。

我发现一个转换序列,导致这种损坏,在某些时候UTF-8编码数据被视为Latin1编码数据。

Data data = new Data("€"); 
org.codehaus.jackson.map.ObjectMapper mapper 
    = new org.codehaus.jackson.map.ObjectMapper(); 
try { 
    String strData = mapper.writeValueAsString(data); 
    System.out.println(strData); 
    byte[] rawData = mapper.writeValueAsBytes(data); 
    System.out.println(Arrays.toString(rawData)); 

    String asLatin1 = new String(rawData, "ISO-8859-1"); 
    byte[] brokenUtf8 = asLatin1.getBytes("UTF-8"); 
    System.out.println(Arrays.toString(brokenUtf8)); 
} catch (IOException e) { 
    System.out.println("Fail " + e.getMessage()); 
} 

服务两台机器上的一个与Apache-Tomcat的7.0.30,另一个在Apache的Tomcat的7.0.23运行。前者产生正确的UTF-8响应,而后者则破坏UTF-8。我无法找出导致行为差异的原因以及解决问题的方法。

+0

它看起来像接收器解码为latin1,这是一个配置问题或使用默认编码代码问题 – Esailija

+0

@Esailija:接收器是卷曲命令行工具或浏览器,都使用UTF-8。我相信这不是接收方的问题。 – divanov

+1

我从你的文章中了解到,你有一台服务器将合法的UTF-8发布到另一台服务器上,而另一台服务器将其解释并转储结果.. – Esailija

回答

1

这个问题有一个非常伤心的原因,它很难找到。 Ant的javac任务有明确的编码集:

<javac destdir="${classes}" includeantruntime="false" source="1.6" target="1.6" debug="true" encoding="ISO-8859-1" classpathref="main.classpath"> 

有人下一个Tomcat的工作,因为它是与Eclipse构建和另一个部署与蚂蚁建造,破坏所有Unicode字符。

0

如果它工作在7.0.30而不是7.0.23,也许这是一个被发现并修复的错误?你检查了Tomcat changelog看看里面有没有东西?

+0

Apache Tomcat 7.0.23的可能性有一个错误,所以它不能产生UTF-8响应,我是第一个注意到它太低而不能被认真对待的人。 – divanov