对编码问题的总结(java版)

全部 Hibernate Spring Struts iBATIS 企业应用 Lucene SOA Java综合 Tomcat 设计模式 OO JBoss

浏览 19143 次

锁定老帖子主题：对编码问题的总结(java版) 精华帖 (0) :: 良好帖 (7) :: 新手帖 (1) :: 隐藏帖 (0)
作者	正文
marauder 等级: 初级会员性别: 文章: 20 积分: 40 来自: 珠海	发表时间：2010-11-06 最后修改：2010-11-10 相关推荐: Java中的字符编码问题处理心得总结 Java学习路线总结，搬砖工逆袭Java架构师 Java知识体系最强总结(2021版) java 设置字符串编码_Java字符编码设置总结 java字符编码方式_java字符编码方式总结更多相关推荐 Java综合总结下这两天对编码的认识一些认识，本文显得比较啰嗦，应为这是我探讨的整个流程结果，了解的有不对的地方多多指点出来！不了解的相信你会有个不错的认解，这是我学习编程的一个开始，大家就多多帮村。在查看网上一些资料时候，首先第一个奇怪的现象出了，据说是移动打不过联通的根本原因。如果你的电脑操作系统是win2000或winxp的话，那么： 1、在桌面上点右键，选择新建 - 文本文档； 2、打开“新建文本文档“，录入“移动“两字后存盘退出； 3、重新打开“新建文本文档“，看到什么了？ 4、是不是刚刚录入的“移动“两字？咱们换过来 1、在桌面上点右键，选择新建 - 文本文档； 2、打开“新建文本文档“，录入“联通“两字后存盘退出； 3、重新打开“新建文本文档“，看到什么了？ 4、是不是刚刚录入的“联通“两字不见了，取而代之是个烧焦的手机电池的摸样？呵呵，是不是很有趣，自己试一下，如果重新建个，除了键入“联通”还多敲几个字，“联通”又能正常显示啦。（以下说的是中文的系统）这个道理还是挺明显的，简单的说文本他本身默认存入编码为GBK，但是“联通”二字的二进制格式跟utf-8编码的格式相同，所以再次打开的时候就是系统用了utf-8的格式去解读了gbk的文本，所以出现乱码。首先了解下上网了解下so8859-1，GB2312/GBK，unicode，utf-8,utf-16等编码的背景资料以及各自关系。接下来自己又对了java编程做了些实验，我以“连通”二字做了实验，应为不想对不住联通，“连通”二字解成GBK二进制码后也是符合utf-8编码的二进制码格式。这个问题晚上查一下一大堆，在这里就不多说了。接下来是探讨java运行时的编码转换，好，开始建立一个文本，输入“连通”二字，默认保存。测试程序 import java.io.BufferedReader; import java.io.FileInputStream; import java.io.FileNotFoundException; import java.io.IOException; import java.io.InputStreamReader; import java.io.UnsupportedEncodingException; public class Charset { public static void main(String[] str) { System.out.println(System.getProperty("file.encoding")); FileInputStream fis01; FileInputStream fis02; FileInputStream fis03; InputStreamReader isrUTF8; InputStreamReader isrGBK; BufferedReader brUTF8; BufferedReader brGBK; try { fis01 = new FileInputStream("E:\\试一下.txt"); fis02 = new FileInputStream("E:\\试一下.txt"); fis03 = new FileInputStream("E:\\试一下.txt"); isrGBK = new InputStreamReader(fis02, "GBK"); isrUTF8 = new InputStreamReader(fis01, "UTF-8"); brGBK = new BufferedReader(isrGBK); brUTF8 = new BufferedReader(isrUTF8); int t = 0; String strGBK = brGBK.readLine(); String strUTF8 = brUTF8.readLine(); System.out.println("GBK的字节-----"); byte[] b = strGBK.getBytes(); for (int i = 0; i < b.length; i++) { System.out.println(b[i]); } System.out.println("-----"); System.out.println("utf-8的字节-----"); byte[] c = strUTF8.getBytes(); for (int i = 0; i < c.length; i++) { System.out.println(c[i]); } System.out.println("-----"); System.out.println("直接读取的字节-----"); byte[] y = new byte[b.length]; int f = fis03.read(y); for (int d = 0; d < y.length; d++) { System.out.println(y[d]); } System.out.println("-----"); System.out.println("GBK:" + strGBK); System.out.println("UTF-8:" + strUTF8); } catch (FileNotFoundException e) { e.printStackTrace(); } catch (UnsupportedEncodingException e) { e.printStackTrace(); } catch (IOException e) { e.printStackTrace(); } } } 很简单的一个程序，结果为 GBK GBK的字节----- -63 -84 -51 -88 ----- utf-8的字节----- 63 63 63 ----- 直接读取的字节----- -63 -84 -51 -88 ----- GBK:连通 UTF-8:??? 如图运行过程如图：源代码为本机默认编码（即GBK），在读取二进制后通过，因为在Java 语言默认的编码方式是UNICODE，单我们读取一个文本时，首先读取二进制，通过isrGBK = new InputStreamReader(fis02, "GBK")用GBK编码将二进制码解析成UNICODE编码存在JVM虚拟内存里；当要打印输出，或是获取二进制码时，用byte[] b = strGBK.getBytes()（默认就是byte[] b = strGBK.getBytes(“gbk”)）,UNICODE作为内存的与其他外来流的中间者沟通个个编码转换。如果不指定，就是默认编码就是GBK，一般情况下就是我们存的是“GBK”，读出来的也是“GBK”，所以一般情况下不会出现乱码问题，接下来把上面的文本在保存时指定存为ＵＴＦ－８时，得到结果为 GBK GBK的字节----- -17 -69 -65 -24 -65 -98 -23 -128 63 ----- utf-8的字节----- 63 -63 -84 -51 -88 ----- 直接读取的字节----- -17 -69 -65 -24 -65 -98 -23 -128 -102 ----- GBK:锘胯繛閫? UTF-8:?连通运行过程：可以看到，二进制 -17-69-65 这三个是编码标识符，说明这是一个UTF-8编码的文本，用UTF-8解析-24-65-98等于“连”，-23-128-102=“通。总结就引用一下网上看到的一句话：事实上，世界上任何东西要与其他东西通信会话，都存在一个既定的协议，既定的编码。人与人之间通过文字联络，汉字“妈”代表生你的那个人，这就是一种既定的编码。但注意到这样一种情况，汉字“妈”在日本文字里有可能是你生下的那个人，所以当一个中国人Ａ与日本Ｂ之间用“妈”这个字进行交流，出现误解就很正常的。用记事本打开二进制文件与上面的情况类似。记事本无论打开什么文件都按既定的字符编码工作（如ASCII码），所以当他打开二进制文件时，出现乱码也是很必然的一件事情了，解码和译码不对应嘛。杂谈：由于自己写的还有些地方说得比较模糊，看了别人的文章，写得太好了 http://www.iteye.com/topic/311583内部很清晰，语言精炼标准。自己代码试出，原来utf-16就是unicode编码，应该是unicode字集开始时候只有unicode编码，但后来出现了utf-8编码，为了名字统一好看，给unicode编码多加了个名字叫utf-16编码。。接下网上查到：UTF-16直接就是unicode编码, 没有变换, 但它包含了0x00在编码内, 头256字节码的第一个byte都是0x00, 在操作系统(C语言)中有特殊意义, 会引起问题。红色的这两段字，都为自己理解，第一句更是自己的猜想理解，（事实肯定不是这样，让自己好记点，呵呵）想具体认识，查看些官方类文旦。自己之前也混淆字符集跟编码两个概念，特地链接过来http://www.iteye.com/topic/317895。这里贴了一些较权威的资料，贴上帮助学习http://drift-ice.iteye.com/blog/726265。现在就纠正下上面红色的概念问题: Unicode是为整合全世界的所有语言文字而诞生的。任何文字在Unicode中都对应一个值，这个值称为代码点（code point）。代码点的值通常写成 U+ABCD 的格式。而文字和代码点之间的对应关系就是UCS-2（Universal Character Set coded in 2 octets）。顾名思义，UCS-2是用两个字节来表示代码点，其取值范围为 U+0000～U+FFFF。为了能表示更多的文字，人们又提出了UCS-4，即用四个字节表示代码点。它的范围为 U+00000000～U+7FFFFFFF，其中 U+00000000～U+0000FFFF和UCS-2是一样的。要注意，UCS-2和UCS-4只规定了代码点和文字之间的对应关系，并没有规定代码点在计算机中如何存储。规定存储方式的称为UTF（Unicode Transformation Format），其中应用较多的就是UTF-16和UTF-8了。主要上文主要说的unicode编码主要是说:java中的string.getByte("unicode")出来的是utf-16,呵呵。这段话可以帮助理解:Windows平台下默认的Unicode编码为Little Endian的UTF-16. 大小: 6.3 KB 查看图片附件声明：ITeye文章版权属于作者，受法律保护。没有作者书面许可不得转载。推荐链接
返回顶楼

IcyFenix 等级: 性别: 文章: 332 积分: 1030 来自: 珠海	发表时间：2010-11-06 最后修改：2010-11-06 支持&收藏，与LZ来自同一个城市。
返回顶楼	回帖地址 0 0 请登录后投票

meiyoudao 等级: 初级会员性别: 文章: 69 积分: 0 来自: 冲脉	发表时间：2010-11-07 支持. 与LZ来之同一星球
返回顶楼	回帖地址 0 0 请登录后投票

marauder 等级: 初级会员性别: 文章: 20 积分: 40 来自: 珠海	发表时间：2010-11-07 IcyFenix 写道支持&收藏，与LZ来自同一个城市。呀，不知道在哪个区工作啦~
返回顶楼	回帖地址 0 0 请登录后投票

wuyanlong 等级: 初级会员性别: 文章: 1 积分: 30 来自: 珠海	发表时间：2010-11-07 marauder 写道如图运行过程如图：中间的那个byte[] 不=63 63 好像少了个63 ，最右边的byte[]b = 63 -84 -51 -88也少了个在下面一行呀。支持，收藏。
返回顶楼	回帖地址 0 0 请登录后投票

codermouse 等级: 初级会员性别: 文章: 41 积分: 70 来自: 西柏利亚	发表时间：2010-11-07 楼主动手深入分析的精神小弟佩服.先留着,后续慢慢看.
返回顶楼	回帖地址 0 0 请登录后投票

marauder 等级: 初级会员性别: 文章: 20 积分: 40 来自: 珠海	发表时间：2010-11-07 codermouse 写道楼主动手深入分析的精神小弟佩服.先留着,后续慢慢看. 写得很啰嗦，就是因为网上找了些的资料，但不确定内存那部分存的是什么，所以把整个运行过程给虚拟出来。希望多多交流，有错误，或是描述不够正确请指正。
返回顶楼	回帖地址 0 0 请登录后投票

marauder 等级: 初级会员性别: 文章: 20 积分: 40 来自: 珠海	发表时间：2010-11-07 wuyanlong 写中间的那个byte[] 不=63 63 好像少了个63 ，最右边的byte[]b = 63 -84 -51 -88也少了个在下面一行呀。支持，收藏。确实是，看得很仔细，但是这是个小问题，他本来就是乱码，是图片没弄完整后面63显示不出来，byte[]=63 -84 -51 -88那没错，下面是换行符编程很多时候需要细心，谢谢，以后会注意希望多多交流，有错误，或是描述不够正确请指正。
返回顶楼	回帖地址 0 0 请登录后投票

JE帐号等级: 初级会员性别: 文章: 298 积分: 0 来自: 北京	发表时间：2010-11-07 unicode是一种字符集.与GB2312,GBK是同概念的.就是一种代码表. 而utf-8,utf-16这些不是字符集,而是用来表达unicode字符的数据格式.utf-8最大的特点是变长,这样对于英文语言国家来说,从iso8859-1转为utf-8后,字符串的尺寸增加也不是很大. 另外,说到编码,一方面要注意字符编码,同样还要注意文件编码概念.也就是可能出现文件编码声明为ASNI,而存储的字符内容为GBK之类的情况. 然后,对于UTF-8格式的文件,最烦心的是BOM头问题... 总之,我的心得体会是,不管总结多少次,编码问题总还是会成为问题... ...
返回顶楼	回帖地址 0 0 请登录后投票

cuippan 等级: 初级会员性别: 文章: 12 积分: 10 来自: 北京	发表时间：2010-11-07 会思考才能立于不败之地，果断收藏
返回顶楼	回帖地址 0 0 请登录后投票

论坛首页 → Java企业应用版

跳转论坛: