Java关于中文乱码问题的解决方案与经验

现在的位置: 首页 > 综合 > 正文

Java关于中文乱码问题的解决方案与经验

2018年02月02日 ⁄ 综合 ⁄ 共 5942字 ⁄ 字号小中大 ⁄ 评论关闭

　　string.length()其实就是char数组的长度，如果使用不同的编码，很可能会错分，造成散字和乱码。writer.close();　　如果用gb2312编译，你会找到e4 bd a0的字段 ;设置浏览器的显示编码，如果response的数据是utf8编码，显示将是乱码，但是乱码和上述原因还不一样。

　　一、字节和unicode

　　Java内核是unicode的，就连class文件也是，但是很多媒体，包括文件/流的保存方式是使用字节流的。因此Java要对这些字节流经行转化。 char是unicode的，而byte是字节。Java中byte/char互转的函数在sun.io的包中间有。其中 ByteToCharConverter类是中调度，可以用来告诉你，你用的convertor。其中两个很常用的静态函数是：　

　public static ByteToCharConverter getDefault();
　　public static ByteToCharConverter getConverter(String encoding);

　　如果你不指定converter，则系统会自动使用当前的encoding,gb平台上用gbk,en平台上用8859_1。　

　byte ——〉char：
　　"你"的gb码是：0xc4e3 ,unicode是0x4f60
　　String encoding = "gb2312";
　　byte b[] = {(byte)''/u00c4'',(byte)''/u00e3''};
　　ByteToCharConverter converter = ByteToCharConverter.getConverter(encoding);
　　char c[] = converter.convertAll(b);
　　for (int i = 0; i < c.length; i++) {
　　System.out.println(Integer.toHexString(c[i]));
　　}

　　结果是什么?0x4f60

　　如果encoding ="8859_1"，结果又是什么?0x00c4,0x00e3(这表明8859_1是以字节为单位的)

　　如果代码改为：　　

byte b[] = {(byte)''/u00c4'',(byte)''/u00e3''};
　　ByteToCharConverter converter = ByteToCharConverter. getDefault();
　　char c[] = converter.convertAll(b);
　　for (int i = 0; i < c.length; i++) {
　　System.out.println(Integer.toHexString(c[i]));
　　}

　　结果将又是什么?

　　这就要根据平台的编码而定。　　

char ——〉byte：
　　String encoding = "gb2312";
　　char c[] = {''/u4f60''};
　　CharToByteConverter converter = CharToByteConverter.getConverter(encoding);
　　byte b[] = converter.convertAll(c);
　　for (int i = 0; i < b.length; i++) {
　　System.out.println(Integer.toHexString(b[i]));
　　}

　结果是什么?0x00c4,0x00e3

　　如果encoding ="8859_1"，结果又是什么?0x3f

　　如果代码改为　　

String encoding = "gb2312";
　　char c[] = {''/u4f60''};
　　CharToByteConverter converter = CharToByteConverter.getDefault();
　　byte b[] = converter.convertAll(c);
　　for (int i = 0; i < b.length; i++) {
　　System.out.println(Integer.toHexString(b[i]));
　　}

　　结果将又是什么?还是根据平台的编码而定。

　　很多中文问题就是从这两个最简单的类派生出来的。而却有很多类不直接支持把encoding输入，这给我们带来诸多不便。很多程序难得用encoding了，直接用default的encoding，这就给我们移植带来了很多困难。

　　二、utf-8

　　utf-8是和unicode一一对应的，其实现很简单：　

　7位的unicode: 0 _ _ _ _ _ _ _
　　11位的unicode: 1 1 0 _ _ _ _ _ 1 0 _ _ _ _ _ _
　　16位的unicode: 1 1 1 0 _ _ _ _ 1 0 _ _ _ _ _ _ 1 0 _ _ _ _ _ _
　　21位的unicode: 1 1 1 1 0 _ _ _ 1 0 _ _ _ _ _ _ 1 0 _ _ _ _ _ _ 1 0 _ _ _ _ _ _

　　大多数情况是只使用到16位以下的unicode:

　　"你"的gb码是：0xc4e3 ,unicode是0x4f60

　　0xc4e3的二进制：

　　1100 ，0100 ，1110 ，0011

　　由于只有两位我们按照两位的编码来排，但是我们发现这行不通，因为第7位不是0因此，返回"?"

　　0x4f60的二进制：

　　0100 ，1111 ，0110 ，0000

　　我们用utf-8补齐，变成：

　　1110 ，0100 ，1011 ，1101 ，1010 ，0000

　　e4--bd-- a0

　　于是返回：0xe4,0xbd,0xa0。

　三、string和byte[]

　　string其实核心是char[],然而要把byte转化成string，必须经过编码。string.length()其实就是char数组的长度，如果使用不同的编码，很可能会错分，造成散字和乱码。例如：

　　String encoding = “”;
　　byte [] b={(byte)''/u00c4'',(byte)''/u00e3''};
　　String str=new String(b,encoding);

　　如果encoding=8859_1，会有两个字，但是encoding=gb2312只有一个字这个问题在处理分页是经常发生。

　　四、Reader,Writer / InputStream,OutputStream

　　Reader和Writer核心是char，InputStream和OutputStream核心是byte。但是Reader和Writer的主要目的是要把char读/写InputStream/OutputStream。例如：

　　文件test.txt只有一个"你"字，0xc4,0xe3　　

String encoding = "gb2312";
　　InputStreamReader reader = new InputStreamReader(new FileInputStream(
　　"text.txt"), encoding);
　　char c[] = new char[10];
　　int length = reader.read(c);
　　for (int i = 0; i < length; i++) {
　　System.out.println(c[i]);
　　}

　　结果是什么?是"你"。如果encoding ="8859_1"，结果是什么?"??"两个字符，表示不认识。反过来的例子自己做。

　　五、我们要对Java的编译器有所了解：

　　Javac ?encoding

　　我们常常没有用到encoding这个参数。其实encoding这个参数对于跨平台的操作是很重要的。如果没有指定encoding，则按照系统的默认encoding,gb平台上是gb2312，英文平台上是iso8859_1。Java的编译器实际上是调用 sun.tools.Javac.main的类，对文件进行编译，这个类有compile函数中间有一个encoding的变量,-encoding的参数其实直接传给encoding变量。编译器就是根据这个变量来读取Java文件的，然后把用utf-8形式编译成class文件。例子代码：　

　String str = "你";
　　FileWriter writer = new FileWriter("text.txt");
　　write.write(str);
　　writer.close();

　　如果用gb2312编译，你会找到e4 bd a0的字段 ;

　如果用8859_1编译， 00c4 00e3的二进制：

　　0000，0000 ，1100，0100 ，0000，0000 ，1110，0011

　　因为每个字符都大于7位，因此用11位编码：

　　1100，0001，1000，0100，1100，0011，1010，0011

　　c1-- 84--　c3--　 a3

　　你会找到c1 84 c3 a3

　　但是我们往往忽略掉这个参数，因此这样往往会有跨平台的问题：

　　样例代码在中文平台上编译，生成zhclass

　　样例代码在英文平台上编译，输出enclass

　　(1) zhclass在中文平台上执行ok,但是在英文平台上不行

　　(2) enclass在英文平台上执行ok,但是在中文平台上不行

　　原因是：

　　(1) 在中文平台上编译后，其实str在运行态的char[]是0x4f60,　在中文平台上运行，filewriter的缺省编码是gb2312,因此 chartobyteconverter会自动用调用gb2312的converter,把str转化成byte输入到fileoutputstream 中，于是0xc4,0xe3放进了文件。但是如果是在英文平台下，chartobyteconverter的缺省值是8859_1, filewriter会自动调用8859_1去转化str,但是他无法解释，因此他会输出"?"

　　(2) 在英文平台上编译后，其实str在运行态的char[]是0x00c4 0x00e3, 在中文平台上运行，中文无法识别，因此会出现??;在英文平台上，0x00c4-->0xc4,0x00e3->0xe3，因此 0xc4,0xe3被放进了文件。

　　六、其它原因：

　　设置浏览器的显示编码，如果response的数据是utf8编码，显示将是乱码，但是乱码和上述原因还不一样。

　　七、发生编码的地方：

　1. 从数据库到Java程序 byte——〉char
　　2. 从Java程序到数据库 char——〉byte
　　3. 从文件到Java程序 byte——〉char
　　4. 从Java程序到文件 char——〉byte
　　5. 从Java程序到页面显示 char——〉byte
　　6. 从页面form提交数据到Java程序byte——〉char
　　7. 从流到Java程序byte——〉char
　　8. 从Java程序到流char——〉byte

　　可以使用配置过滤器的方法解决中文乱码的：　

　RequestFilter
　　net.golden.uirs.util.RequestFilter
　　charset
　　gb2312
　　RequestFilter
　　*.Jsp
　　public void doFilter(ServletRequest req, ServletResponse res,
　　FilterChain fChain) throws IOException, ServletException {
　　HttpServletRequest request = (HttpServletRequest) req;
　　HttpServletResponse response = (HttpServletResponse) res;
　　HttpSession session = request.getSession();
　　String userId = (String) session.getAttribute("userid");
　　req.setCharacterEncoding(this.filterConfig.getInitParameter("charset"));

　　// 设置字符集?

　　实际上是设置了byte ——〉char的encoding　

　try {
　　if (userId == null || userId.equals("")) {
　　if (!request.getRequestURL().toString().matches(
　　".*/uirs/logon/logon(Controller){0,1}//x2EJsp$")) {
　　session.invalidate();
　　response.sendRedirect(request.getContextPath() +
　　"/uirs/logon/logon.Jsp");
　　}
　　}
　　else {

　　// 看看是否具有信息上报系统的权限　

　if (!net.golden.uirs.util.UirsChecker.check(userId, "信息上报系统",
　　net.golden.uirs.util.UirsChecker.ACTION_DO)) {
　　if (!request.getRequestURL().toString().matches(
　　".*/uirs/logon/logon(Controller){0,1}//x2EJsp$")) {
　　response.sendRedirect(request.getContextPath() +
　　"/uirs/logon/logonController.Jsp");
　　}
　　}
　　}
　　}
　　catch (Exception ex) {
　　response.sendRedirect(request.getContextPath() +
　　"/uirs/logon/logon.Jsp");
　　}
　　fChain.doFilter(req, res);
　　}

【上篇】争论：Java是否应该停止增加新特性
【下篇】漫谈Java程序设计中的接口应用

作者: alislipsy

该日志由 alislipsy 于6年前发表在综合分类下，最后更新于 2018年02月02日.
转载请注明: Java关于中文乱码问题的解决方案与经验 | 学步园 +复制链接

抱歉!评论已关闭.

学步园

Java关于中文乱码问题的解决方案与经验

作者: alislipsy

书签

最新文章New

本站推荐

返回首页