现在的位置: 首页 > 综合 > 正文

常用编码详解

2013年10月03日 ⁄ 综合 ⁄ 共 7679字 ⁄ 字号 评论关闭

常用编码详解

作者:李静南

摘要:本文在对各种资料整理后详细介绍各种常见编码的转换算法

一、通用字符集(UCS

ISO/IEC 10646-1 [ISO-10646]定义了一种多于8比特字节的字符集,称作通用字符集(UCS),它包含了世界上大多数可书写的字符系统。已定义了两种多8比特字节编码,对每一个字符采用四个8比特字节编码的称为UCS-4,对每一个字符采用两个8比特字节编码的称为UCS-2。它们仅能够对UCS的前64K字符进行编址,超出此范围的其它部分当前还没有分配编址。

二、基本多语言面(BMP

ISO 10646 定义了一个31位的字符集。然而,在这巨大的编码空间中,迄今为止只分配了前65534个码位 (0x0000 0xFFFD)这个UCS16位子集称为基本多语言面 ”(Basic Multilingual Plane, BMP)

三、Unicode编码

历史上,有两个独立的,创立单一字符集的尝试。一个是国际标准化组织(ISO) ISO 10646 项目;另一个是由(一开始大多是美国的)多语言软件制造商组成的协会组织的 Unicode 项目。幸运的是, 1991年前后, 两个项目的参与者都认识到:世界不需要两个不同的单一字符集。它们合并双方的工作成果,并为创立一个单一编码表而协同工作。两个项目仍都存在并独立地公布各自的标准, Unicode 协会和 ISO/IEC JTC1/SC2 都同意保持 Unicode ISO 10646 标准的码表兼容,并紧密地共同调整任何未来的扩展。Unicode 标准额外定义了许多与字符有关的语义符号学,一般而言是对于实现高质量的印刷出版系统的更好的参考。

四、UTF-8编码

UCS-2UCS-4编码很难在许多当前的应用和协议中使用,这些应用和协议假定字符为一个87比特的字节。即使新的可以处理16比特字符的系统,却不能处理UCS-4数据。这种情况导致一种称为UCS转换格式(UTF)的发展,它每一种有不同的特征。 UTF-8(RFC 2279),使用了8比特字节的所有位,保持全部US-ASCII取值范围的性质:US-ASCII字符用一个8比特字节编码,采用通常的US-ASCII值,因此,在此值下的任何一个8比特位字节仅仅代表一个US-ASCII字符,而不会为其他字符。它有如下的特性:

1UTF-8UCS-4UCS-2两者中任一个进行相互转换比较容易。
2
)多8比特字节序列的第一个8比特字节指明了系列中8比特字节的数目。
3
8比特字节值FEFF永远不会出现。
4
)在8比特字符流中字符边界从哪里开始较容易发现。

UTF-8定义:
UTF-8中,字符采用168比特字节的序列进行编码。仅仅一个8比特字节的一个序列中,字节的高位为0,其他的7位用于字符值编码。nn>1)个8比特字节的一个序列中,初始的8比特字节中高n位为1,接着一位为0,此字节余下的位包含被编码字符值的位。接着的所有8比特字节的最高位为1,接着下一位为0,余下每个字节6位包含被编码字符的位。

下表总结了这些不同的8比特字节类型格式。字母x指出此位来自于进行编码的UCS-4字符值。

   UCS-4范围(16进制)     UTF-8 系列(二进制)
   0000 0000<->0000 007F   0xxxxxxx
   0000 0080<->0000 07FF   110xxxxx 10xxxxxx
   0000 0800<->0000 FFFF   1110xxxx 10xxxxxx 10xxxxxx
 
   0001 0000<->001F FFFF   11110xxx 10xxxxxx 10xxxxxx 10xxxxxx
   0020 0000<->03FF FFFF   111110xx 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx
   0400 0000<->7FFF FFFF   1111110x 10xxxxxx ... 10xxxxxx

UCS-4 UTF-8编码规则如下:
1
)从字符值和上表第一列中决定需要的8比特字节数目。着重指出的是上表中的行是相互排斥的,也就是说,对于一个给定的UCS-4字符,仅仅有一个有效的编码。
2
)按照上表中第二列每行那样准备8比特字节的高位。
3
)将UCS字符值的位,从低位起填充在标记为x地方。从UTF8序列中最后一个字节填起,然后剩下的字符值依次放到前一个字节中,如此重复,直到所有标记位x的位都进行了填充。

这里我们仅仅实现UnicodeUTF8的转换,Unicode都是两个字节,定义为:

typedef usigned short WCHAR
 
// 输出的UTF8编码至多是3个字节。
 
int UnicodeToUTF8(WCHAR ucs2, unsigned char *buffer)
{
    memset(buffer, 0, 4);
    if ((0x0000 <= ucs2) && (ucs2 <= 0x007f)) // one char of UTF8
    {
       buffer[0] = (char)ucs2;
       return 1;
    }
    if ((0x0080 <= ucs2) && (ucs2 <= 0x07ff)) // two char of UTF8
    {
       buffer[1] = 0x80 | char(ucs2 & 0x003f);
       buffer[0] = 0xc0 | char((ucs2 >> 6) & 0x001f);
       return 2;
    }
    if ((0x0800 <= ucs2) && (ucs2 <= 0xffff)) // three char of UTF8
    {
       buffer[2] = 0x80 | char(ucs2 & 0x003f);
       buffer[1] = 0x80 | char((ucs2 >> 6) & 0x003f);
       buffer[0] = 0xe0 | char((ucs2 >> 12) & 0x001f);
       return 3;
    }
    return 0;

理论上,简单的通过用20值的8比特字节来扩展每个UCS-2字符,则从UCS-2UTF-8编码的算法可以从上面得到。然而,从D800DFFF间的UCS-2值对(用Unicode说法是代理对),实际上是通过UTF-16来进行UCS-4字符转换,因此需要特别对待:UTF-16转换必须未完成,先转换到于UCS-4字符,然后按照上面过程进行转换。

UTF-8UCS-4解码过程如下:
1
)初始化UCS-4字符48比特字节的所有位为0
2
)根据序列中8比特字节数和上表中第二列(标记为x位)来决定哪些位编码用于字符值。
3
)从编码序列分配位到UCS-4字符。首先从序列最后一个8比特字节的最低位开始,接着向左进行,直到所有标记为x的位完成。如果UTF-8序列长度不大于38比特字节,解码过程可以直接赋予UCS-2

WCHAR UTF8ToUnicode(unsigned char *buffer)
{
    WCHAR temp = 0;
    if (buffer[0] < 0x80)                                   // one char of UTF8
    {
       temp = buffer[0];
    }
    if ((0xc0 <= buffer[0]) && (buffer[0] < 0xe0))          // two char of UTF8
    {
       temp = buffer[0] & 0x1f;
       temp = temp << 6;
       temp = temp | (buffer[1] & 0x3f);
    }
    if ((0xe0 <= buffer[0]) && (buffer[0] < 0xf0))          // three char of UTF8
    {
       temp = buffer[0] & 0x0f;
       temp = temp << 6;
       temp = temp | (buffer[1] & 0x3f);
       temp = temp << 6;
       temp = temp | (buffer[2] & 0x3f);
    }
    if ((0x80 <= buffer[0]) && (buffer[0] < 0xc0))          // not the first byte of UTF8 character
       return 0xfeff;                                       // 0xfeff will never appear in usual
 
    return temp;                                            // more than 3-bytes return 0
}

注意:上面解码算法的实际实现应该进行安全保护,以便处理解码无效的系列。例如:实现可能(错误)解码无效的UTF-8系列0xC0 0x80为字符U+0000,它可能导致安全问题或其他问题(比如把0当作数组结束标志)。更详细的算法和公式可以在[FSS_UTF][UNICODE] [ISO-10646]附录R中找到。

五、UTF-7编码

UTF-7A Mail-Safe Transformation Format of Unicode(RFC1642)。这是一种使用 7 ASCII 码对 Unicode 码进行转换的编码。它的设计目的仍然是为了在只能传递 7 为编码的邮件网关中传递信息。 UTF-7 对英语字母、数字和常见符号直接显示,而对其他符号用修正的 Base64 编码。符号 + - 号控制编码过程的开始和暂停。所以乱码中如果夹有英文单词,并且相伴有 + 号和 - 号,这就有可能是 UTF-7 编码。

协议中定义的转换规则:
1
)集合D中的Unicode字符可以直接的编码为ASCII的等值字节。集合O中的字符可以有有选择的的直接编码为ASCII的等值字节,但要记得其中的很多的字符在报头字段是不合法的,或者不能正确的穿过邮件网关。
2
)通过在前面加上转换字符"+",任何一个Unicode序列都可以使用集合B(更改过的base64)中的字符编码。"+"意味着后面的字节将被作为更改过的BASE64字母表中的元素解析,直到遇到一个不是字母表中的字符为止。这些字符中会包含控制字符,比如回车和换行;因此,一个Unicode转换序列总是在一行上结束。注释:有两个特殊的情形:"+-"表示''+''"+ …… --"表示有一个真正的''-''字符出现了。多数情况是没有''-''标记结束。
3
)空格、tab、回车和换行字符可以直接使用ASCII等价字节表示。

那么我们就可以定义算法了,我们先定义字符集的相关数组:

typedef unsigned char byte
 
// 64 characters for base64 coding
byte base64Chars[] = "ABCDEFGHIJKLMNOPQRSTUVWXYZabcdefghijklmnopqrstuvwxyz0123456789+/"; 
 
// 8 characters are safe just as base64 characters for MAIL gates
byte safeChars[] = "''(),-.:?";   
 
// 4 characters all means space
byte spaceChars[] = " /t/n/r";   
 

注:在编码处理时候,我们需要对一个字节判断属于哪类字符,以便确定处理规则,如果简单的使用范围比较的方式,效率很低,我们采用哈希表的思路:建立一个256长的数组,那么对于每一个字节的值,就可以定义一个类型。判断时候,对每个字符都直接取数组的值。
// mask value defined for indentify the type of a byte
#define       BASE64        0x01
#define       SAFE          0x02
#define       SPACE         0x04
byte byteType[256];        // hash table used for find the type of a byte
bool firstTime = true;     // the first time to use the lib, wait for init the table
 
// 注:为了解码base64编码部分的字符,需要一个哈希表,对一个base64字符都可以直接得到0-64之间的一个数:
byte base64Value[128];
 
这两个哈希表在使用前要初始化:
 
void initUTF7Tables()
{
    byte *s;
    if(!firstTime)
       return;
    // not necessary, but should do it to be robust
    memset(byteType, 0, 256);
    memset(base64Value, 0, 128);
   
    for(s=base64Chars; *s!=''/0''; s++)
    {
       byteType[*s] |= BASE64;
       base64Value[*s] = s - base64Chars; // the offset, it is a 6bits value,0-64
    }
   
    for(s=safeChars; *s!=''/0''; s++)
       byteType[*s] |= SAFE;
      
    for(s=spaceChars; *s!=''/0''; s++)
       byteType[*s] |= SPACE;
 
    firstTime = false;
}
UTF-7编码转换时候,是与当前字符是与状态有关的,也就是说:
1
)正处于Base64编码状态中
2
)正处于直接编码状态中
3
)现在UTF-7的缓冲区里,当前的字符是转换开关"+"

所以要定义相关的字段:

// the state of current character
#define       IN_ASCII      0
#define       IN_BASE64     1
#define AFTER_PLUS 2
在使用规则2进行编码时候,需要使用base64的方法,也就需要2个全局的辅助变量:
int state;                 // state in which we are working
int nbits;                 // number of bits in the bit buffer
unsigned long bitBuffer;   // used for base64 coding
把一个Unicode字符转化为一个UTF-7序列:返回写到缓冲区里的字节数目,函数影响了statenbitsbitBuffer三个全局变量。这里先实现了一个简单的辅助函数,功能是把一个Unicode字符转变后写到提供的缓冲区中,返回写入的字节个数。在开始编码Unicode字符数组中第一个字符的时候,statenbitsbitBuffer三个全局变量需要被初始化:
state = IN_ASCII;
nbits = 0;
bitBuffer = 0;
 
int UnicodeToUTF7(WCHAR ucs2, byte *buffer)
{
    byte *head = buffer;
    int index;   
   
    // is an ASCII and is a byte in char set defined
    if (((ucs2 & 0xff80) == 0)) && (byteType[(byte)u2] & (BASE64|SAFE|SPACE)))
    {
       byte temp = (byte)ucs2;
      
       if (state == IN_BASE64) // should switch out from base64 coding here
       {
          if (nbits > 0)       // if some bits in buffer, then output them
          {
             index = (bitBuffer << (6 - nbits)) & 0x3f;
             *s++ = base64[index];
          }
          if ((byteType[temp] & BASE64) || (temp == ''-''))
             *s++ = ''-'';
        state = IN_ASCII;
       }
       *s++ = temp;
      
       if (temp == ''+'')
          *s++ = ''-'';
    }
    else
    {
       if (state == IN_ASCII)
       {
          *s++ = ''+'';
          state = IN_BASE64;          // begins base64 coding here
          nbits = 0;
          bitBuffer = 0;
       }
       bitBuffer <<= 16;
       bitBuffer |= ucs2;
       nbits += 16;
      
       while(nbits >= 6)
       {
          nbits -= 6;
          index = (bitBuffer >> nbits) & 0x3f;   // output the high 6 bits
          *s++ = base64[index];
       }
    }
    return (s - head);
}

说明:对于合法的Unicode字符数组,可以通过逐个输入数组中的字符,连续调用上面的函数,得到一个UTF-7字节序列。需要说明的是:最后一个Unicode字符应该是上面三个字节数组中某个字符的等值。

下面,我们实现一个简单的说明函数,功能是:输入一个UTF-7字节,可能得到并返回一个合法Unicode字符;也可能不能得到,比如遇到''+''或者因为还没有完成一个字符的拼装,这时返回一个标志字符0xfeff,这个字符常用来标志Unicode编码。

注:函数影响了statenbitsbitBuffer三个全局变量。在开始处理第一个字节时候,变量需要被初始化为:

state = IN_ASCII;
nbits = 0;
bitBuffer = 0;
 
#define RET0 0xfeff
 
WCHAR UTF7ToUnicode(byte c)
{
    if(state == IN_ASCII)
    {
       if (c == ''+'')
       {
          state = AFTER_PLUS;
          return RET0;
       }
       else
        return (WCHAR)c;

抱歉!评论已关闭.