总结
Stringstr
= new String(
"明".getBytes("GBK"), "GBK")
明的unicode编码计算为GBK编码的表示,在通过GBK编码计算为unicode,在Java中所有的字符都是Unicode
(我之前一直很晕,看到这个解释才恍然大悟)
在使用java的时候会涉及到编解码的内容。
首先,我们需要了解三个概念:
1. java文件和java class文件的编码格式是utf-8。
2. java class 文件在jvm中运行的时候需要转码成utf-16的编码格式。
3. java中的字符串在内存中的编码格式是unicode。
我们先看在内存中的java对象的编码格式是怎么转化的
我们可以看到String str = “杭州”,在真实的内存中存储的是字节流:(e6 9d ad e5 b7 9e);是由utf-8的编码格式编码的。
现在我们要看看“杭州”两字在gbk中的编码格式中的字节是什么:ba bc d6 dd;具体的代码如下:
- String str = "杭州";
- int k = 0;
- char[] res = new char[str.getBytes("gbk").length * 2];
- for(byte bb : str.getBytes("gbk")){
- res[k++] = hexDigits[bb >>> 4 & 0xf];
- res[k++] = hexDigits[bb & 0xf];
- }
- String s = new String(res);
- System.out.println(s);
具体的示意图如下:
然后我们再把GBK的bytes流再转化成unicode编码的String对象:
- String utfStr = new String(str.getBytes("gbk"),"gbk");
最后在附上转化代码
package client; import java.io.ByteArrayOutputStream; public class test { public static String toHexString(String s) { String str = ""; for (int i = 0; i < s.length(); i++) { int ch = (int) s.charAt(i); String s4 = Integer.toHexString(ch); str = str + s4; } return str; } // 转化十六进制编码为字符串 public static String toStringHex(String s) { byte[] baKeyword = new byte[s.length() / 2]; for (int i = 0; i < baKeyword.length; i++) { try { baKeyword[i] = (byte) (0xff & Integer.parseInt( s.substring(i * 2, i * 2 + 2), 16)); } catch (Exception e) { e.printStackTrace(); } } try { s = new String(baKeyword, "utf-8");// UTF-16le:Not } catch (Exception e1) { e1.printStackTrace(); } return s; } public static void main(String[] args) { System.out.println(encode("中")); System.out.println(decode(encode("中"))); } /* * 16进制数字字符集 */ private static String hexString = "0123456789ABCDEF"; /* * 将字符串编码成16进制数字,适用于所有字符(包括中文) */ public static String encode(String str) { // 根据默认编码获取字节数组 byte[] bytes = str.getBytes(); StringBuilder sb = new StringBuilder(bytes.length * 2); // 将字节数组中每个字节拆解成2位16进制整数 for (int i = 0; i < bytes.length; i++) { sb.append(hexString.charAt((bytes[i] & 0xf0) >> 4)); sb.append(hexString.charAt((bytes[i] & 0x0f) >> 0)); } return sb.toString(); } /* * 将16进制数字解码成字符串,适用于所有字符(包括中文) */ public static String decode(String bytes) { ByteArrayOutputStream baos = new ByteArrayOutputStream( bytes.length() / 2); // 将每2位16进制整数组装成一个字节 for (int i = 0; i < bytes.length(); i += 2) baos.write((hexString.indexOf(bytes.charAt(i)) << 4 | hexString .indexOf(bytes.charAt(i + 1)))); return new String(baos.toByteArray()); } }