常用字符集编码的概要特性--推荐

常用字符集编码的概要特性 搞清常用编码特性是解决字符集编码问题的基础。字符集编码的识别与转换、分析各种乱码产生的原因、编程操作各种编码字符串(例如字符数计算、截断处理)等都需要弄清楚编码的特性。 了解

常用字符集编码的概要特性 搞清常用编码特性是解决字符集编码问题的基础。字符集编码的识别与转 换、分析各种乱码产生的原因、编程操作各种编码字符串(例如字符数计算、截断 处理)等都需要弄清楚编码的特性。 了解一种字符集编码主要是要了解该编码的编码范围,编码对应的字符集(都 包含哪些字符),和其他字符集编码之间的关系等。 1.ASCII ASCII码是7位编码,编码范围是0x00-0x7F。ASCII字符集包括英文字母、 阿拉伯数字和标点符号等字符。其中0x00-0x20和0x7F共33个控制字符。 只支持ASCII码的系统会忽略每个字节的最高位,只认为低7位是有效位。HZ 字符编码就是早期为了在只支持7位ASCII系统中传输中文而设计的编码。早期很 多邮件系统也只支持ASCII编码,为了传输中文邮件必须使用BASE64或者其他编码 方式。 2.GB2312 GB2312是基于区位码设计的,区位码把编码表分为94个区,每个区对应94个 位,每个字符的区号和位号组合起来就是该汉字的区位码。区位码一般用10进制数 来表示,如1601就表示16区1位,对应的字符是“啊”。在区位码的区号和位号上 分别加上0xA0就得到了GB2312编码。 区位码中01-09区是符号、数字区,16-87区是汉字区,10-15和88-94是未定 义的空白区。它将收录的汉字分成两级:第一级是常用汉字计3755个,置于16-55 区,按汉语拼音字母/笔形顺序排列;第二级汉字是次常用汉字计3008个,置于 56-87区,按部首/笔画顺序排列。一级汉字是按照拼音排序的,这个就可以得到某 个拼音在一级汉字区位中的范围,很多根据汉字可以得到拼音的程序就是根据这个

腾讯文库常用字符集编码的概要特性--推荐