操作系统之字符集

现在的位置: 首页 > 综合 > 正文

操作系统之字符集

2012年05月03日 ⁄ 综合 ⁄ 共 904字 ⁄ 字号小中大 ⁄ 评论关闭

字符集是操作系统中所使用的字符映射表。最早的字符集，可以认为是UNIX系统使用的，包含128个字符的7- bit ASCII 字符集（包括tabs、空格、标点、符号、大小写字母、数字和回车键等）。随后，就是标准8- bit ASCII，包含256个字符，早期的Windows 操作系统使用8- bit ASCII字符集。由于扩展后的ASCII字符集还是无法满足所有语言的需求，如汉语、日语和韩语这些语言的字符都高达几万个字符。所以产生了16-bit字符集（双字节、多字节或变数字节）--统一的字符编码标准为Unicode。

Unicode是一个国际标准，采用双字节字符进行编码，提供了在世界主要语言中通用的字符，所以也称为基本多文种平面。Unicode以明确的方式表述文本数据，简化了混合平台环境中的数据共享。目前，很多操作系统都支持Unicode，包括Windows系统、Linux系统和Mac OS、Solaris、IBM-AIX、HP-UX等。Unicode简称为UCS，现在用的是UCS-2，即２个字节编码，与国际标准字符集ISO 10646-1相对应。UCS的最新版本是2005年的Unicode 4.1.0，而ISO的最新标准是ISO 10646-3:2003。

Codepage是各国的文字编码和Unicode之间的映射表。例如，简体中文和Unicode的映射表就是CP936，其他的映射关系有：

UTF-8/ UTF-16/ UTF-32。UCS只是规定如何编码，并没有规定如何传输、保存编码。所以有了UniCode实用的编码体系，如UTF-8、UTF-7、UTF-16。UTF-8（UCS Transformation Format）和ISO-8859-1完全兼容，解决了UniCode编码在不同的计算机之间的传输、保存的问题，使得双字节的Unicode能够在现存的单字节的系统上正确传输。UTF-8使用可变长度的字节来储存Unicode字符，这能解决敏感字符引起的问题。前面有几个1，就表示整个UTF-8串是由几个字节构成的。以下是Unicode和UTF-8之间的转换关系表：

比较完整的字符集列表:

【上篇】ScriptManager & ClientScriptManager
【下篇】asp.net下url传递中文的解决方案

作者: anomaly

该日志由 anomaly 于12年前发表在综合分类下，最后更新于 2012年05月03日.
转载请注明: 操作系统之字符集 | 学步园 +复制链接

抱歉!评论已关闭.

学步园

操作系统之字符集

作者: anomaly

书签

最新文章New

本站推荐

返回首页