现在的位置: 首页 > 综合 > 正文

操作系统之字符集

2012年05月03日 ⁄ 综合 ⁄ 共 904字 ⁄ 字号 评论关闭

    字符集是操作系统中所使用的字符映射表。最早的字符集,可以认为是UNIX系统使用的,包含128个字符的7- bit ASCII 字符集(包括tabs、空格、标点、符号、大小写字母、数字和回车键等)。随后,就是标准8- bit ASCII,包含256个字符,早期的Windows 操作系统使用8- bit ASCII字符集。由于扩展后的ASCII字符集还是无法满足所有语言的需求,如汉语、日语和韩语这些语言的字符都高达几万个字符。所以产生了16-bit字符集(双字节、多字节或变数字节)--统一的字符编码标准为Unicode。

    Unicode是一个国际标准,采用双字节字符进行编码,提供了在世界主要语言中通用的字符,所以也称为基本多文种平面。Unicode以明确的方式表述文本数据,简化了混合平台环境中的数据共享。目前,很多操作系统都支持Unicode,包括Windows系统、Linux系统和Mac OS、Solaris、IBM-AIX、HP-UX等。Unicode简称为UCS,现在用的是UCS-2,即2个字节编码,与国际标准字符集ISO 10646-1相对应。UCS的最新版本是2005年的Unicode 4.1.0,而ISO的最新标准是ISO 10646-3:2003。

    Codepage是各国的文字编码和Unicode之间的映射表。例如,简体中文和Unicode的映射表就是CP936,其他的映射关系有:

     UTF-8/ UTF-16/ UTF-32。UCS只是规定如何编码,并没有规定如何传输、保存编码。所以有了UniCode实用的编码体系,如UTF-8、UTF-7、UTF-16。UTF-8(UCS Transformation Format)和ISO-8859-1完全兼容,解决了UniCode编码在不同的计算机之间的传输、保存的问题,使得双字节的Unicode能够在现存的单字节的系统上正确传输。UTF-8使用可变长度的字节来储存Unicode字符,这能解决敏感字符引起的问题。前面有几个1,就表示整个UTF-8串是由几个字节构成的。以下是Unicode和UTF-8之间的转换关系表:

比较完整的字符集列表:

 

抱歉!评论已关闭.