2013-04-26 249 views
5

为什么此junit测试失败?Java字节[]到/从字符串转换

import org.junit.Assert; 
import org.junit.Test; 

import java.io.UnsupportedEncodingException; 

public class TestBytes { 
    @Test 
    public void testBytes() throws UnsupportedEncodingException { 
     byte[] bytes = new byte[]{0, -121, -80, 116, -62}; 
     String string = new String(bytes, "UTF-8"); 
     byte[] bytes2 = string.getBytes("UTF-8"); 
     System.out.print("bytes2: ["); 
     for (byte b : bytes2) System.out.print(b + ", "); 
     System.out.print("]\n"); 
     Assert.assertArrayEquals(bytes, bytes2); 
    } 
} 

我假设到来的字节数组等于结果,但不知何故,可能是由于这样的事实,UTF-8字符取两个字节,胜负阵列从在内容和长度传入阵列不同。

请赐教。

回答

3

原因是0, -121, -80, 116, -62不是有效的UTF-8字节序列。新的字符串(字节,“UTF-8”)在这种情况下不会抛出任何异常,但结果很难预测。阅读http://en.wikipedia.org/wiki/UTF-8无效的字节序列部分。

+0

尤其是UTF-8不能表示所有字节序列。 – 2013-04-26 08:47:22

+0

谢谢。我非常想将这些字节存储在字符串中。是否有任何支持_any_字节序列的编码,还是我必须用我在上面的junit测试中打印它的方式来表示它? – eirirlar 2013-04-26 08:48:58

+2

尝试ISO-8859-1它将字节转换为字符1到1 – 2013-04-26 08:49:57

1

数组字节包含负值指示值,这些值被设置为第8位(bit7),并以多字节序列的形式转换为UTF-8。如果仅使用范围为0..127的值的字节,则字节2将与字节相同。要给出一个字节副本,可以使用例如arraycopy方法:

byte[] bytes3 = new byte[bytes.length]; 
    System.arraycopy(bytes, 0, bytes3, 0, bytes.length); 
+0

感谢您澄清第8位。 – eirirlar 2013-04-26 08:57:09