Java中文编码问题小结讲课教案.doc-淘文阁

资源描述

《Java中文编码问题小结讲课教案.doc》由会员分享，可在线阅读，更多相关《Java中文编码问题小结讲课教案.doc（24页珍藏版）》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。

1、Good is good, but better carries it.精益求精，善益求善。Java中文编码问题小结-2006-03-07|Java中文&编码问题小结Java字符编码转换过程说明常见问题JVMJVM启动后，JVM会设置一些系统属性以表明JVM的缺省区域。user.language,user.region,file.encoding等。可以使用System.getProperties()详细查看所有的系统属性。如在英文操作系统(如UNIX)下，可以使用如下属性定义强制指定JVM为中文环境-Dclient.encoding.override=GBK-Dfile.encoding=G

2、BK-Duser.language=zh-Duser.region=CN.java.class编译说明：一般javac根据当前os区域设置,自动决定源文件的编码.可以通过-encoding强制指定.错误可能:1gbk编码源文件在英文环境下编译,javac不能正确转换.曾见于java/jsp在英文unix下.检测方法:写u4e00格式的汉字，绕开javac编码,再在jvm中,将汉字作为int打印，看值是否相等；或直接以UTF-8编码打开.class文件，看看常量字符串是否正确保存汉字。文件读写外部数据如文件经过读写和转换两个步骤，转为jvm所使用字符。InputStream/OutputStre

3、am用于读写原始外部数据，Reader/Writer执行读写和转换两个步骤。1文件读写转换由java.io.Reader/Writer执行；输入输出流InputStream/OutputStream处理汉字不合适,应该首选使用Reader/Writer，如FileReader/FileWriter。2FileReader/FileWriter使用JVM当前编码读写文件.如果有其它编码格式,使用InputStreamReader/OutputStreamWriter3PrintStream有点特殊，它自动使用jvm缺省编码进行转换。读取.properties文件.propeties文件由Prop

4、erties类以iso8859-1编码读取，因此不能在其中直接写汉字，需要使用JDK的native2ascii工具转换汉字为uXXXX格式。命令行：native2asciiencodingGBKinputfileoutputfile读取XML文件1XML文件读写同于文件读写，但应注意确保XML头中声明如与文件编码保持一致。2javax.xml.SAXParser类接受InputStream作为输入参数，对于Reader，需要用org.xml.sax.InputSource包装一下，再给SAXParser。3对于UTF-8编码XML，注意防止编辑器自动加上uFFFEBOM头,xmlparser会

5、报告contentisnotallowedinprolog。字节数组1使用newString(byteArray,encoding)和String.getBytes(encoding)在字节数组和字符串之间进行转换也可以用ByteArrayInputStream/ByteArrayOutputStream转为流后再用InputStreamReader/OutputStreamWriter转换。错误编码的字符串(iso8859-1转码gbk)如果我们得到的字符串是由错误的转码方式产生的，例如：对于gbk中文，由iso8859-1方式转换，此时如果用调试器看到的字符串一般是的样子，长度一般为文本的

6、字节长度，而非汉字个数。可以采用如下方式转为正确的中文：text=newString(text.getBytes(“iso8859-1”),”gbk”);JDBC转换过程由JDBCDriver执行，取决于各JDBC数据库实现。对此经验尚积累不够。1对于ORACLE数据库，需要数据库创建时指定编码方式为gbk，否则会出现汉字转码错误2对于SQLServer2000，最好以nvarchar/nchar类型存放文本，即不存在中文/编码转换问题。3连接Mysql，将connectionString设置成encoding为gb2312：StringconnectionString=jdbc:mysql:

7、/localhost/test?useUnicode=true&characterEncoding=gb2312;WEB/Servlet/JSP1对于JSP，确定头部加上这样的标签。2对于Servlet，确定设置setContentType(“text/html;charset=gb2312”)，以上两条用于使得输出汉字没有问题。3为输出HTMLhead中加一个，让浏览器正确确定HTML编码。4为Web应用加一个Filter，确保每个Request明确调用setCharacterEncoding方法,让输入汉字能够正确解析。importjava.io.IOException;importjav

8、ax.servlet.Filter;importjavax.servlet.FilterChain;importjavax.servlet.FilterConfig;importjavax.servlet.ServletException;importjavax.servlet.ServletRequest;importjavax.servlet.ServletResponse;importjavax.servlet.UnavailableException;importjavax.servlet.http.HttpServletRequest;/*Examplefilterthatsetst

9、hecharacterencodingtobeusedinparsingthe*incomingrequest*/publicclassSetCharacterEncodingFilterimplementsFilterpublicSetCharacterEncodingFilter()protectedbooleandebug=false;protectedStringencoding=null;protectedFilterConfigfilterConfig=null;publicvoiddestroy()this.encoding=null;this.filterConfig=null

10、;publicvoiddoFilter(ServletRequestrequest,ServletResponseresponse,FilterChainchain)throwsIOException,ServletException/if(request.getCharacterEncoding()=null)/Stringencoding=getEncoding();/if(encoding!=null)/request.setCharacterEncoding(encoding);/request.setCharacterEncoding(encoding);if(debug)Syste

11、m.out.println(HttpServletRequest)request).getRequestURI()+settedto+encoding);chain.doFilter(request,response);publicvoidinit(FilterConfigfilterConfig)throwsServletExceptionthis.filterConfig=filterConfig;this.encoding=filterConfig.getInitParameter(encoding);this.debug=true.equalsIgnoreCase(filterConf

12、ig.getInitParameter(debug);protectedStringgetEncoding()return(this.encoding);web.xml中加入：LocalEncodingFilterLocalEncodingFiltercom.ccb.ectipmanager.request.SetCharacterEncodingFilterencodinggb2312debugfalseLocalEncodingFilter/*5用于Weblogic（vedor-specific）：其一:在web.xml里加上如下脚本:weblogic.httpd.inputCharset

13、./*GBK其二（可选）在weblogic.xml里加上如下脚本:/*GBKSWING/AWT/SWT对于SWING/AWT，Java会有些缺省字体如Dialog/SanSerif，这些字体到系统真实字体的映射在$JRE_HOME/lib/font.properties.XXX文件中指定。排除字体显示问题时，首先需要确定JVM的区域为zh_CN，这样font.properties.zh_CN文件才会发生作用。对于font.properties.zh_CN,需要检查是否映射缺省字体到中文字体如宋体。在Swing中，Java自行解释TTF字体，渲染显示；对于AWT,SWT显示部分交由操作系统。首先

14、需要确定系统装有中文字体。1汉字显示为”，一般为显示字体没有使用中文字体，因为Java对于当前字体显示不了的字符，不会像Windows一样再采用缺省字体显示。2部分不常见汉字不能显示，一般为显示字库中汉字不全，可以换另外的中文字体试试。3对于AWt/SWT，首先确定JVM运行环境的区域设置为中文，因为此处设计JVM与操作系统api调用的转换问题，再检查其它问题。JNIJNI中jstring以UTF-8编码给我们，需要我们自行转为本地编码。对于Windows，可以采用WideCharToMultiByte/MultiByteToWideChar函数进行转换，对于Unix，可以采用iconv库。这

15、里从SUNjdk1.4源代码中找到一段使用jvmString对象的getBytes的转换方式，相对简单和跨平台，不需要第三方库，但速度稍慢。函数原型如下：/*ConvertbetweenJavastringsandi18nCstrings*/JNIEXPORTjstringNewStringPlatform(JNIEnv*env,constchar*str);JNIEXPORTconstchar*GetStringPlatformChars(JNIEnv*env,jstringjstr,jboolean*isCopy);JNIEXPORTjstringJNICALLJNU_NewStringP

16、latform(JNIEnv*env,constchar*str);JNIEXPORTconstchar*JNICALLJNU_GetStringPlatformChars(JNIEnv*env,jstringjstr,jboolean*isCopy);JNIEXPORTvoidJNICALLJNU_ReleaseStringPlatformChars(JNIEnv*env,jstringjstr,constchar*str);附件jni_util.h,jni_util.cTUXEDO/JOLTJOLT对于传递的字符串需要用如下进行转码newString(ls_tt.getBytes(GBK)

17、,iso8859-1)对于返回的字符串newString(error_message.getBytes(iso8859-1),GBK);jolt的系统属性bea.jolt.encoding不应该设置,如果设置,JSH会报告说错误的协议.JDK1.4/1.5新增部分字符集相关类(Charset/CharsetEncoder/CharsetDecoder)jdk1.4开始，对字符集的支持在java.nio.charset包中实现。常用功能：1列出jvm所支持字符集：Charset.availableCharsets()2能否对看某个Unicode字符编码，CharsetEncoder.canEnc

18、ode()UnicodeSurrogate/CJKEXTBUnicode范围一般所用为U0000-UFFFF范围，jvm使用1个char就可以表示，对于CJKEXTB区汉字，范围大于U20000，则需要采用2个char方能表示，此即UnicodeSurrogate。这2个char的值范围落在Character.SURROGATE区域内，用Character.getType()来判断。jdk1.4尚不能在Swing中正确处理surrogate区的Unicode字符，jdk1.5可以。对于CJKEXTB区汉字，目前可以使用的字库为”宋体-方正超大字符集”,随Office安装。常见问题在JVM下，用

19、System.out.println不能正确打印中文，显示为?System.out.println是PrintStream，它采用jvm缺省字符集进行转码工作，如果jvm的缺省字符集为iso8859-1，则中文显示会有问题。此问题常见于Unix下，jvm的区域没有明确指定的情况。在英文UNIX环境下,用System.out.println能够正确打印汉字，但是内部处理错误可能是汉字在输入转换时，就没有正确转码：即gbk文本(iso8859-1转码)jvmchar(iso8859-1编码汉字)(iso8859-1转码)输出。gbk汉字经过两次错误转码，原封不动的被传递到输出，但是在jvm中，并未

20、以正确的unicode编码表示，而是以一个汉字字节一个char的方式表示，从而导致此类错误。GB2312-80，GBK，GB18030-2000汉字字符集GB2312-80是在国内计算机汉字信息技术发展初始阶段制定的，其中包含了大部分常用的一、二级汉字，和9区的符号。该字符集是几乎所有的中文系统和国际化的软件都支持的中文字符集，这也是最基本的中文字符集。其编码范围是高位0xa10xfe，低位也是0xa1-0xfe；汉字从0xb0a1开始，结束于0xf7fe；GBK是GB2312-80的扩展，是向上兼容的。它包含了20902个汉字，其编码范围是0x8140-0xfefe，剔除高位0x80的字位。

21、其所有字符都可以一对一映射到Unicode2.0，也就是说JAVA实际上提供了GBK字符集的支持。这是现阶段Windows和其它一些中文操作系统的缺省字符集，但并不是所有的国际化软件都支持该字符集，感觉是他们并不完全知道GBK是怎么回事。值得注意的是它不是国家标准，而只是规范。随着GB18030-2000国标的发布，它将在不久的将来完成它的历史使命。GB18030-2000(GBK2K)在GBK的基础上进一步扩展了汉字，增加了藏、蒙等少数民族的字形。GBK2K从根本上解决了字位不够，字形不足的问题。它有几个特点，它并没有确定所有的字形，只是规定了编码范围，留待以后扩充。编码是变长的，其二字节部

22、分与GBK兼容；四字节部分是扩充的字形、字位，其编码范围是首字节0x81-0xfe、二字节0x30-0x39、三字节0x81-0xfe、四字节0x30-0x39。UTF-8/UTF-16/UTF-32UTF，即UnicodeTransformerFormat，是Unicode代码点(codepoint)的实际表示方式，按其基本长度所用位数分为UTF-8/16/32。它也可以认为是一种特殊的外部数据编码，但能够与Unicode代码点做一一对应。UTF-8是变长编码，每个Unicode代码点按照不同范围，可以有1-3字节的不同长度。UTF-16长度相对固定，只要不处理大于U200000范围的字符，

23、每个Unicode代码点使用16位即2字节表示，超出部分使用两个UTF-16即4字节表示。按照高低位字节顺序，又分为UTF-16BE/UTF-16LE。UTF-32长度始终固定，每个Unicode代码点使用32位即4字节表示。按照高低位字节顺序，又分为UTF-32BE/UTF-32LE。UTF编码有个优点，即尽管编码字节数不等，但是不像gb2312/gbk编码一样，需要从文本开始寻找，才能正确对汉字进行定位。在UTF编码下，根据相对固定的算法，从当前位置就能够知道当前字节是否是一个代码点的开始还是结束，从而相对简单的进行字符定位。不过定位问题最简单的还是UTF-32，它根本不需要进行字符定位，但是相对的大小也增加不少。关于GCJJVMGCJ并未完全依照sunjdk的做法，对于区域和编码问题考虑尚不够周全。GCJ启动时，区域始终设为en_US，编码也缺省为iso8859-1。但是可以用Reader/Writer做正确编码转换。-

展开阅读全文