现在的位置: 首页 > 综合 > 正文

java的new String(byte[]).getBytes丢字节现象

2013年01月10日 ⁄ 综合 ⁄ 共 671字 ⁄ 字号 评论关闭

虽然这种应用情况极少,甚至基本不会出现,但还是记录下,加深下影响吧,避免以后犯2都找不到原因。

参见:Why
new String(bytes, enc).getBytes(enc) does not return the original byte array?

也就是当你无法确认在指定编码下所有字节能够被识别,请不要使用new String来编码,否则导致不仅该字节丢失,甚至接下来的一个字节也会伴随丢失。

例如

Utils.printBytes( new String(new byte[]{-35}).getBytes() );

这个输出将会是63,因为-35在当前默认编码中无法被识别,被转换成?,之后再获取字节变成63。

那么再加一个字节在后面试试

Utils.printBytes( new String(new byte[]{-35, 2}).getBytes() );

这个输出依然是63,应该是当发现-35无法识别后,去做双字节解析,依然无法解析,将这两个字节转换成一个字符?,然后就是63了。

当然也不是说第一个是无法解析,就一定丢两个字节信息,如

 Utils.printBytes( new String(new byte[]{-35, -11}).getBytes() );
        System.out.println(new String(new byte[]{-35, -2}));

这个时候刚好双字节能够被解析到,再编码回来就得到原字节信息。

当有这种非得将字节数组转成String的情况,可以优先考虑转成Hex String,用Integer.toHexString,或者Base64编码之类的。

抱歉!评论已关闭.