《2022年2022年计算机字符集 .pdf》由会员分享,可在线阅读,更多相关《2022年2022年计算机字符集 .pdf(10页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、1 计算机字符集编码详解1.1 概述:ASCII 、GB2312、GBK、GB18030、unicode、 UTF-8 、EBCDIC字符集1.1.1 ASCII 字符集编码ASCII 码是 7 位编码, 字符在计算机中以其ASCII 码方式表示, 其长度为1 个字节 , 有符号字符型数。编码范围是0 x00-0 x7F ( 0127 )。 ASCII 字符集包括英文字母、阿拉伯数字和标点符号等字符。其中0 x00-0 x20和 0 x7F 共 33 个控制字符。ASCII 十六进制控制字代码含义00 00 NUL 空01 01 SOH 标题开始02 02 STX 正文开始03 03 ETX
2、正文结束04 04 EOT 传输结否05 05 ENQ 询问06 06 ACK 确认07 07 BEL 响铃08 08 BS 退格09 09 HT 横向列表10 0A LF 换行11 0B VT 纵向列表12 0C FF 换页13 0D CR 回车14 0E SO 换档( Shift-Out )15 0F SI 换档( Shift-In )16 10 DLE 数据链扩展17 11 DC1 设备控制 1 18 12 DC2 设备控制 2 19 13 DC3 设备控制 3 20 14 DC4 设备控制 4 21 15 NAK 不确认22 16 SYN 同步字符23 17 ETB 传输块结否24 1
3、8 CAN 作废25 19 EM 介质结束26 1A SUB 置换27 1B ESC 扩展名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 1 页,共 10 页 - - - - - - - - - 28 1C FS 文件分隔符29 1D GS 组分隔符30 1E RS 记录分隔符31 1F US 单位分隔符ASCII 码对照表ASCII 码键盘ASCII 码键盘ASCII 码键盘ASCII 码键盘27 ESC 32 SPACE 33 ! 34 35 # 36 $ 37 % 38 & 3
4、9 40 ( 41 ) 42 * 43 + 44 45 - 46 . 47 / 48 0 49 1 50 2 51 3 52 4 53 5 54 6 55 7 56 8 57 9 58 : 59 ; 60 63 ? 64 65 A 66 B 67 C 68 D 69 E 70 F 71 G 72 H 73 I 74 J 75 K 76 L 77 M 78 N 79 O 80 P 81 Q 82 R 83 S 84 T 85 U 86 V 87 W 88 X 89 Y 90 Z 91 92 93 94 95 _ 96 97 a 98 b 99 c 100 d 101 e 102 f 103 g
5、104 h 105 i 106 j 107 k 108 l 109 m 110 n 111 o 112 p 113 q 114 r 115 s 116 t 117 u 118 v 119 w 120 x 121 y 122 z 名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 2 页,共 10 页 - - - - - - - - - 123 124 | 125 126 只支持 ASCII 码的系统会忽略每个字节的最高位,只认为低7 位是有效位。 HZ 字符编码就是早期为了在只支持7 位
6、 ASCII 系统中传输中文而设计的编码。早期很多邮件系统也只支持 ASCII 编码,为了传输中文邮件必须使用BASE64 或者其他编码方式。1.1.2GB2312字符集编码GB2312 是汉字字符集和编码的代号,中文全称为“ 信息交换用汉字编码字符集” ,由中华人民共和国国家标准总局发布,一九八一年五月一日实施。GB 是“ 国标 ”二字的汉语拼音缩写。GB2312 字符集(character set) 只收录简化字汉字,以及一般常用字母和符号,主要通行于中国大陆地区和新加坡等地。GB2312 共收录有7445 个字符,其中简化汉字6763 个,字母和符号682 个。GB2312 将所收录的字
7、符分为94 个区,编号为01 区至94 区;每个区收录94 个字符,编号为01 位至94 位。GB2312 的每一个字符都由与其唯一对应的区号和位号所确定。例如:汉字 “ 啊 ” ,编号为16 区 01 位。GB2312 字符集的区位分布表:区号字数字符类别01 94 一般符号02 72 顺序号码03 94 拉丁字母04 83 日文假名05 86 Katakana 06 48 希腊字母07 66 俄文字母08 63 汉语拼音符号09 76 图形符号10-15 备用区16-55 3755 一级汉字,以拼音为序56-87 3008 二级汉字,以笔划为序88-94 备用区这本手册列出了GB2312
8、的全部字符和它们的区位号。GB2312 编码GB2312 原始编码(encoding) 是对所收录的每个字符都用两个字节(byte) 表示。第一字节名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 3 页,共 10 页 - - - - - - - - - 为“ 高字节 ” ,由字符的区号值加上32 而形成;第二字节为“ 低字节 ” ,由字符的位号值加上32 而形成。例如:汉字“ 啊” ,编号为16 区 01 位。它的高字节为16 + 32 = 48 (0 x30),低字节为01 + 3
9、2 = 33 (0 x21),合并而成的编码为0 x3021。在区位号值上加32 的原因大慨是为了避开低值字节区间。由于 GB2312 原始编码与ASCII 编码的字节有重叠,现在通行的GB2312 编码是在原始编码的两个字节上各加128 修改而形成。例如:汉字“ 啊” ,编号为16 区 01 位。它的原始编码为0 x3021,通行编码为0 xB0A1。如果不另加说明,GB2312 常指这种修改过的编码。GB2312 的编码范围是0 xA1A1-0 x7E7E ,去掉未定义的区域之后可以理解为实际编码范围是0 xA1A1-0 xF7FE 。上面这句有误,应该说GB2312的每一个汉字由两个字节
10、构成,其中每一个字节的范围都在0 xA1 0 xFE ,正好每一个字节都有94 个编码范围,与区位码个数完全对应。EUC-CN可以理解为GB2312的别名,和GB2312完全相同。区位码更应该认为是字符集的定义,定义了所收录的字符和字符位置,而 GB2312 及 EUC-CN是实际计算机环境中支持这种字符集的编码。HZ 和 ISO-2022-CN是对应区位码字符集的另外两种编码, 都是用 7 位编码空间来支持汉字。区位码和 GB2312 编码的关系有点像Unicode和 UTF-8。1.1.3GBK 字符集编码GBK 编码是 GB2312 编码的超集,向下完全兼容GB2312,同时 GBK收录
11、了 Unicode 基本多文种平面中的所有CJK汉字。同GB2312 一样, GBK也支持希腊字母、日文假名字母、俄语字母等字符, 但不支持韩语中的表音字符(非汉字字符) 。 GBK还收录了 GB2312不包含的汉字部首符号、竖排标点符号等字符。GBK的整体编码范围是为:高字节范围是0 81-0 xFE ,低字节范围是0 x40-7E 和 0 x80-0 xFE,不包括低字节是07F 的组合。低字节是 0 x40-0 x7E 的 GBK字符有一定特殊性,因为这些字符占用了ASCII码的位置,这样会给一些系统带来麻烦。有些系统中用0 x40-0 x7E 中的字符 (如 “| ”)做特殊符号, 在
12、定位这些符号时又没有判断这些符号是不是属于某个GBK 字符的低字节,这样就会造成错误判断。在支持GB2312 的环境名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 4 页,共 10 页 - - - - - - - - - 下就不存在这个问题。 需要注意的是支持GBK的环境中小于0 x80 的某个字节未必就是 ASCII符号;另外就是最好选用小于040的 ASCII符号做一些特殊符号,这样就可以快速定位,且不用担心是某个汉字的另一半。Big5 编码中也存在相应问题。CP936和 GBK
13、的有些许差别,绝大多数情况下可以把CP936当作 GBK的别名。1.1.4GB18030字符集编码GB18030 编码向下兼容GBK和 GB2312,兼容的含义是不仅字符兼容,而且相同字符的编码也相同。 GB18030 收录了所有Unicode3.1 中的字符, 包括中国少数民族字符,GBK不支持的韩文字符等等,也可以说是世界大多民族的文字符号都被收录在内。GBK和 GB2312 都是双字节等宽编码,如果算上和ASCII兼容所支持的单字节,也可以理解为是单字节和双字节混合的变长编码。GB18030 编码是变长编码,有单字节、 双字节和四字节三种方式。GB18030 的单字节编码范围是0 x00
14、-0 x7F,完全等同与ASCII ;双字节编码的范围和GBK 相同,高字节是0 x81-0 xFE,低字节的编码范围是0 x40 -0 x7E和 0 x80-FE;四字节编码中第一、三字节的编码范围是0 x81-0 xFE,二、四字节是0 x30-0 x39。Windows 中 CP936代码页使用0 x80 来表示欧元符号,而在GB18030 编码中没有使用0 x80编码位,用其他位置来表示欧元符号。这可以理解为是GB18030 向下兼容性上的一点小问题;也可以理解为0 x80 是 CP936对 GBK的扩展,而GB18030只是和 GBK兼容良好。1.1.5unicode字符集编码每一种
15、语言的不同的编码页,增加了那些需要支持不同语言的软件的复杂度。因而人们制定了一个世界标准,叫做 unicode。unicode 为每个字符提供了唯一的特定数值,不论在什么平台上、不论在什么软件中,也不论什么语言。也就是说,它世界上使用的所有字符都列出来,并给每一个字符一个唯一特定数值。Unicode 的最初目标,是用1 个 16 位的编码来为超过65000 字符提供映射。但这还不够,它不能覆盖全部历史上的文字,也不能解决传输的问题(implantation head-aches),尤其在那些基于网络的应用中。已有的软件必须做大量的工作来程序16 位的数据。因 此, Unicode 用一些基本的
16、保留字符制定了三套编码方式。它们分别是UTF-8,UTF-16和UTF-32。正如名字所示,在 UTF8 中,字符是以 8 位序列来编码的,用一个或几个字节来表示一个字符。这种方式的最大好处,是UTF 8 保留了 ASCII字符的编码做为它的一部分,例如,在 UTF8 和 ASCII中, “A”的编码都是0 x41. 名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 5 页,共 10 页 - - - - - - - - - UTF 16 和 UTF32 分别是 Unicode 的 16
17、 位和 32 位编码方式。 考虑到最初的目的,通常说的 Unicode 就是指 UTF-16。在讨论 Unicode 时,搞清楚哪种编码方式非常重要。1.1.5.1 UTF-8字符集编码Unicode Transformation Format-8bit ,允许含 BOM,但通常不含BOM。是用以解决国际上字符的一种多字节编码,它对英文使用8 位(即一个字节) ,中文使用24 为(三个字节)来编码。 UTF-8 包含全世界所有国家需要用到的字符,是国际编码,通用性强。UTF-8 编码的文字可以在各国支持UTF8字符集的浏览器上显示。如,如果是UTF8编码,则在外国人的英文 IE上也能显示中文,
18、他们无需下载IE 的中文语言支持包。GBK的文字编码是用双字节来表示的,即不论中、 英文字符均使用双字节来表示,为了区分中文,将其最高位都设定成1。GBK包含全部中文字符,是国家编码,通用性比UTF8差,不过 UTF8占用的数据库比GBD大。1.1.6 EBCDIC编码EBCDIC (Extended Binary Coded Decimal Interchange Code) 为 IBM 于 1963 年-1964 年间推出的字元编码表,根据早期打孔机式的二进化十进数(BCD, Bindary Coded Decimal)排列而成。是IBM 迷尔级以上电脑的标准码。它的缺点是: 英文字母不是
19、连续地排列,中间出现多次断续,为撰写程式的人带来了一些困难。EBCDIC (广义二进制编码的十进制交换码)(读作 ehb-suh-dik 或ehb-kuh-dik ) ,是字母或数字字符的二进制编码,是IBM 为它的更大型的操作系统而开发的。它是为IBM 的 S/390上的 IBMOS/390 操作系统上使用的文本文件的编码,并且数千个公司为它们的遗留应用程序和数据库使用这种编码。在一个EBCDIC的文件里,每个字母或数字字符都被表示为一个8位的二进制数 (一个 0、1 字符串)。256 个可能的字符被定义(字母,数字和一些特殊字符) 。IBM 的个人计算机和工作站操作系统不使用它们所有的EB
20、CDIC编码。相反的,它们使用文本的工业标准编码,ASCII 码。转化程序允许不同的操作系统从一种编码到另一种编码的转化。也 可 参 见 统 一 的 字 符 编 码 标 准 。 Name=ear and mouthCName= 听 说 接 口Site=searchEnterpriseVoiceCategory=Def= 听说接口是一种IP 网络上的语音技术,它使用带有耳机(或听筒)的传统的电话筒来收听接收的音频,用扩音器(或话筒)来传送音频。使用E&M 接口的电话可以用专用分组交换机(PBX) 做成、也可以接收PBX的信号、或可以由PBX 断开连接, 而这些同样可以由支持VoIP 技术的计算机
21、来完成。E&M 的主要优点是它可以允许PBX可靠的检测断开的(挂起的)信号。这就消除了可能会在终端的电话呼叫锁定的计算机端口上出现的问题,这样就使占用不必要的大量网络资源的危险减小到最低。 这种听说接口有时也用作电话筒本身的同步或允许免提功能德听筒和扩音器的连接同步。名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 6 页,共 10 页 - - - - - - - - - 字元对应EBCDIC编码表本来有58 个字元,如下图灰色底所示。后来于各版本的编码表中,加入了其他字元,以符合各地
22、使用者所需。EBCDIC CP037 x0 x1 x2 x3 x4 x5 x6 x7 x8 x9 xA xB xC xD xE xF 0 x NUL SOH STX ETX ST HT SSA DEL EPA RI SS2 VT FF CR SO SI 1x DLE DC1 DC2 DC3 OSC NEL BS ESA CAN EM PU2 SS3 FS GS RS US 2x PAD HOP BPH NBH IND LF ETB ESC HTS HTJ VTS PLD PLU ENQ ACK BEL 3x DCS PU1 SYN STS CCH MW SPA EOT SOS SGCI SCI
23、 CSI DC4 NAK PM SUB 4x SP NBSP a ? ? ? ? ? . ? 7x ? ? ? : # = 8x ?a b c d e f g h i ? ? e y t 9x j k l m n o p q r a o ? Ax s t u v w x y z ? DY T ? Bx ¥ ? ? ? Cx A B C D E F G H I SHY ? ? ? Dx J K L M N O P Q R 1? ? Ex S T U V W X Y Z 2?Fx 0 1 2 3 4 5 6 7 8 9 3?APC EBCDIC CP500 x0 x1 x2 x3 x4 x5 x6
24、 x7 x8 x9 xA xB xC xD xE xF 0 x NUL SOH STX ETX ST HT SSA DEL EPA RI SS2 VT FF CR SO SI 1x DLE DC1 DC2 DC3 OSC NEL BS ESA CAN EM PU2 SS3 FS GS RS US 2x PAD HOP BPH NBH IND LF ETB ESC HTS HTJ VTS PLD PLU ENQ ACK BEL 3x DCS PU1 SYN STS CCH MW SPA EOT SOS SGCI SCI CSI DC4 NAK PM SUB 4x SP NBSP a ? ? ?
25、? ? . ? 7x ? ? ? : # = 8x ?a b c d e f g h i ? ? e y t 9x j k l m n o p q r a o ? Ax s t u v w x y z ? DY T ? Bx ¥ ? ? ? | 名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 7 页,共 10 页 - - - - - - - - - Cx A B C D E F G H I SHY ? ? ? Dx J K L M N O P Q R 1? ? Ex S T U V
26、W X Y Z 2?Fx 0 1 2 3 4 5 6 7 8 9 3?APC 于编码表中, 0 x00 - 0 x3F 及 0 xFF为控制字元, 0 x40 为空格, 0 x41 为不换行空格(no-break space),0 xCA 为选择性连字号(soft hyphen) 。1.1.7 GBK 、 GB2312等与 UTF8之间都必须通过Unicode编码才能相互转换 :GBK 、GB2312 Unicode UTF8 UTF8Unicode GBK 、GB2312 对于一个网站、论坛来说,如果英文字符较多,则建议使用UTF8 节省空间。不过现在很多论坛的插件一般只支持GBK。1.1.
27、8 ASCII 码对照表下表列出了字符集中的0 - 127 。代码 字符 代码字符代码 字符 代码 字符0 32 空格 64 96 1 33 ! 65 A 97 a 2 34 66 B 98 b 3 35 # 67 C 99 c 4 36 $ 68 D 100 d 5 37 % 69 E 101 e 6 38 & 70 F 102 f 7 39 71 G 103 g 8 * 40 ( 72 H 104 h 9 * 41 ) 73 I 105 i 10 * 42 * 74 J 106 j 11 43 + 75 K 107 k 12 44 , 76 L 108 l 13 * 45 - 77 M 1
28、09 m 名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 8 页,共 10 页 - - - - - - - - - 14 46 . 78 N 110 n 15 ? 47 / 79 O 111 o 16 ? 48 0 80 P 112 p 17 ? 49 1 81 Q 113 q 18 ? 50 2 82 R 114 r 19 51 3 83 S 115 s 20 52 4 84 T 116 t 21 53 5 85 U 117 u 22 ? 54 6 86 V 118 v 23 ?
29、55 7 87 W 119 w 24 ? 56 8 88 X 120 x 25 ? 57 9 89 Y 121 y 26 ? 58 : 90 Z 122 z 27 59 ; 91 123 28 ? 60 94 126 31 63 ? 95 _ 127 ? 下表列出了字符集中的128 - 255 。代码 字符 代码字符代码 字符 代码 字符128 ?160 空格 192 224 129 ? 161 ?193 225 130 ?162 194 ? 226 a131 ?163 195 ? 227 ?132 ,164 196 ? 228 ?133 165 ¥197 ? 229 ?134 ?166 |1
30、98 ?230 ?135 ?167 199 ? 231 ?136 ?168 200 231 ?137 169 ? 201 232 138 ?170 a202 233 139 ?171 ?203 ? 234 140 ?172 ?204 235 ?141 ? 173 205 236 142 ?174 ? 206 ?237 143 ? 175 207 ?238 ?144 ? 176 208 D 239 ?145 ?177 209 ? 240 e146 ?178 2210 241 ?147 ?179 3211 242 名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - -
31、 - - - - - - - 名师精心整理 - - - - - - - 第 9 页,共 10 页 - - - - - - - - - 148 ?180 212 ? 243 149 ?181 213 ? 244 ?150 ?182 ?214 ? 245 ?151 ?183 215 246 ?152 ?184 ?216 ? 247 153 ?185 1217 248 ?154 ?186 o218 249 155 ?187 ?219 ? 250 156 ?188 ? 220 251 ?157 ? 189 ? 221 Y 252 158 ?190 ? 222 T 253 y159 ?191 ?223 ?254 t* 数值 8、9、10 和 13 可以分别转换为退格符、制表符、换行符和回车符。这些字符都没有图形表示,但是对于不同的应用程序,这些字符可能会影响文本的显示效果。空 表示在当前平台上不支持的字符。名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 10 页,共 10 页 - - - - - - - - -