ASCII 、GB2312、GBK、UTF-8 编码|0x7f-0xff

现在的位置: 首页 > 综合 > 正文

RSS

ASCII 、GB2312、GBK、UTF-8 编码|0x7f-0xff

2014年09月28日 ⁄ 综合 ⁄ 共 7384字 ⁄ 字号小中大 ⁄ 评论关闭

ASCII 、GB2312、GBK、UTF-8 编码：

原文地址：http://hi.baidu.com/phpease/item/f450b5caec143014505058fc

变量命名规则：

1. 变量名区分大小写(case-sensitive) 。

2. 必须字母或下划线开头。变量名可由字母、数字、下划线组成。

看到这里可能，很多人纳闷了~。那为啥 $我是变量这样的中文也能做变量名呢？在PHP里，中文的确是可以做变量名的（能用是能用但千万别项目上用....) 。因为这里的字母是指： a-z A-Z 和扩展ASCII 字符里从 127 到 255 ，16进制表示为：0x7f-0xff 。那意思就是ASCII字符里从127到255 (0x7f-0xff) 涵括了中文？的确是这样的。下面就简单的讲下编码。

ASCII 、GB2312、GBK、UTF-8 编码：

ASCII ：

ASCII 编码里包括了128个字符。用十进制 0 到 127 来表示。那就对了， 0 到 127 不就是 128个字符吗。每一个数字都代表一个字符。看ASCII 编码表

我们先看十进制(Dec) 这列，看到了吗。0对应于null（字符串的末尾分隔符\0），十进制数字
9 对应的字符是我们开发用得最多的 TAB键。再看看 48 对应的字符是 0 。没错从 ASCII 48开始到57 都表示数字 0到9 。 ASCII 97 到 122 表示小写字母 a 到 z 。比如：我们看到的字母 a ，其实计算机并不认识啥字母a , 她只认识 97。她把a 转成了 ASCII 97来进行存储。下面用PHP 来玩玩 ASCII 。

来我们认识两个函数：

ord ---- Return ASCII value of character 返回字符窜的 ASCII 值。

chr ---- Return a specific character 返回 ASCII 对应的字符。

翠花上例子：

<?php echo(ord('a'));?>

//输出 97

没错吧，小写a的 ASCII 就是 97。要把 ASCII 97 对应的字符打印出来：

<?php echo(chr(97));?>

//输出 a

恩。看完基本就明白了。 ASCII 编码里面包括了大小写字母数字和一些常用的控制字符。这样在使用英语的国家基本就能使用了。计算机存储的是ASCII 。人看到的就是 ASCII 对应的字符。

GB2312 编码：

世界上并不全是用英语作为语言的。比如我国用的是中文。小日本用的是日语。韩国用的是韩文。这些语言和英语完全不是一回事。你看ASCII 表上有中文对应的”数字“吗？没有吧。因为还有一份 GB2312编码表，和ASCII 编码表道理一样。链接： http://wenku.baidu.com/view/244e2d2ce2bd960590c677a6.html
大家打开一看，哎呀~~！是否有点乱乱，找不到头绪，啥乱七八糟。不过当明白原理，就容易看懂了。

在GB2312编码里面，一个字符我们需要用两个字节来进行存储和表示。我们记得ASCII 编码里面一个字符只需要一个字节。所以以GB2312存储数据比 ASCII 大一倍。那么GB2312 这两个字节，分别放啥数字才能表示字母 a 呢？我们知道 ASCII 编码 a 就一个字节表示，编码97。 GB2312 编码比 ASCII 复杂一点，

在要看懂 GB2312编码表之前，首先我们要学习下”区位码“。

区位码概念：

GB2312对汉字和其他字符（字母，数字等）进行了“分区”。

01-09区为特殊符号（数字呀、字母呀等）。

16-55区为一级汉字，按拼音排序。

56-87区为二级汉字，按部首／笔画排序。

分区是啥？比如我是广西的，你是河南的、他是广东。也就是说每个字符肯定存在于某个区里。这种表示方式叫做 “区位码”。区位码其实是区号和位号(表示一个字符在这个哪个区里的第几列) 。你想知道每个汉字的区位码？简单呀。给你个链接自己查去 http://www.jscj.com/index/gb2312.php

我们以 “啊” 这个汉字来查它的区位码。以上图所示 1601 是 “啊”这个汉字的区位码。区号是 16 ，位号 01。如果大家还记得， 16区是一级汉字哦。牛X呀。一级汉字是啥意思？我估计是常用的汉字？~我也不知道，这个是国内专家定义的。位号是 01 ，位号其实就是说你在这个区里排行老几。有了 x轴(区号)和y轴(位号) 那么自然就又个交点，通过交点就能在 GB2312编码表上找到对应的汉字了。

如果你现在就去看 GB2312的编码表，我估计你还是看不懂，虽然说通过区位码就能定位到GB2312编码的字符了。但是GB2312编码表上并没那么单纯。还要继续往下看。

上面我们说的是GB2312的区位码：区号和位号。 前面我说过，一个GB2312的字符是用两个字节来表示的：(高位字节，低位字节)。第一个字节称为“高位字节” ，第二个字节称为“低位字节” ps:因为高的一般排左边吧~ 所以叫高位字节.... 。

算法如下：一个GB2312的字符 == (0xA0 + 区号，0xA0 + 位号)。按照这个算法，你再取看 GB2312编码表，你就看得如鱼得水了。

0xA0 是啥意思呢？为啥高位字节等于区号加上 0xA0 。为啥低位字节等于位号加上 0xA0呢。这样组合起来的两个字节就能表示一个 GB2312的字符？没错，就是那么简单。 0xA0 是一个16进制数字换算成十进制其实就等于 160 。高位字节等于 160 加上区号，你可以理解为，其实就是 GB2312编码字符是从 160 起步的。就好比 ASCII 编码是从 0开始到 127 结束。

我们重新来看下算法：一个GB2312的字符 == (0xA0 + 区号，0xA0 + 位号) 。

以上所看，只要我们知道区位码（区号和位号）就能算出一个汉字的GB2312编码数字。字母a 的区位码： 0365 ，也就是区号 03 位号 65 。按照上面算法我们算下。把 0xA0 换成十进制等于 160。也就是 (160+03,160+65) 等于 (163,225) 换成 16进制(编码表一般都是16进制) (A3,E1) 。 OK了。字母a 的gb2312编码出来了，拿着 A3E1去 GB2312编码表去找这个16进制数字对应的字符吧。如果你没看错的话，没错就是对应着
编码表上的字母 a 。

所以，只要记得上面公式，找个工具算出汉字区位码，然后套进公式里面算下。就能的到这个字符的GB2312编码值了。大家可以自己动手去试试算出上面的汉字 “啊” 的GB2312的编码值。

小总结一下，大家记住：

ASCII 编码的范围 -- 十进制 => 0 - 127 。十六进制： 0x00 - 0x7F 。

GB2312编码的范围 -- 十进制 => 高位字节：161 - 247 。十六进制：0xA1 - 0xF7 ，低位字节： 161 - 254 。十六进制：0xA1 - 0xFE 。

GBK 编码：

GB2312 之上的一种扩展编码，GBK 编码已经包括了GB2312编码，并扩展了GB2312编码，使它能表示更多的字符。 GB2312和GBK 原理一样，他们区别只是，编码值范围不一样了。 GBK 更大了。

GB2312 编码值范围：高字节从A1到F7，而低位字节从A1到FE。

GBK 编码值范围：高字节从81到FE，而低位字节从40到FE 。

以上范围可以看出。GBK 比 GB2312大很多。大是大了很多... 不过现在一般项目都用UTF-8编码了。接下来将下UTF-8编码方式

UTF-8编码：

世界上那么多国家，每个国家的语言都不一样。一会出个 ASCII 一会出个 GBK 一会出个 XXOO 编码。那崩溃了。是否能发明一种编码方式，能很好的表示出所有语言呢？ Unicode编码就是这样产生的。这里我们只讲Unicode中得一种实现方式。UTF-8，当然还有其他的实现方式。但对于我们WEB开发来说，并不常用。

ASCII 编码能很好的表示字母、数字等。所以UTF-8 就在它的基础上进行了一下扩展。按照惯例，我们还是先看下 Unicode编码表(UTF8编码表？木有。我们需要掌握如何从Unicode 转换成 utf8)

学习这节的目的

掌握从Unicode 转换成utf8编码的方法
判断UTF-8下的字符的字节数。看下表：

unicode 字节位表

unicode 编码范围十进制／十六进制

UTF-8 字节模板二进制／十六进制

字节数

(0)000000 – (127)00007F

0xxxxxxx(00-7F)

一字节

(128)000080 – (2047)0007FF

110xxxxx(C2-DF) 10xxxxxx

两个字节

(2048)000800 – (55295)00D7FF (57344)00E000 – (65535)00FFFF

1110xxxx(E0-EF) 10xxxxxx 10xxxxxx

三个字节

(65536)010000 – (1114111)10FFFF

11110xxx(F0-F4) 10xxxxxx 10xxxxxx 10xxxxxx

四个字节

这个表很重要，记下这个表就基本了解了UTF-8 是怎么一回事。 UTF-8 一共能用四个字节来表示。但一般字符呢基本用三个字节就能满足了。

一个字节等于8位。这个大家都知道。从 00000000 - 11111111 这个就是一个字节的数值范围。换算成十进制就是 0 - 255 。懂了这个我们继续往下讲。

继续看上图，我们慢慢讲：

UTF-8中之一字节：

在UTF-8里面对ASCII 编码进行了保留然后再它之上进行了扩展补充。一个字节存的还是字母呀数字呀和ASCII 编码一样。所以编码范围也是 0 - 127 。

有点同学纳闷为啥是 127 呢？一个字节换算成二进制不是 255吗？因为一字节的时候，第一位给借去了，第一位的值为固定为0 。大家看上图第一行 “UTF-8字节模板“ 这一列就明白了。所以其实只有7位是用来表示字符。那么换算了下 7位的二进制就只有 0 - 127 了。这个几乎和ASCII 编码一样，想知道0 - 127 都分别对应了什么字符？看ASCII 编码表呀。

UTF-8 之两字节：

一个字节 8位，两个字节就16位了。哇！值更大了，能表示的字符更多了。所以什么希腊字母呀、拉丁字母呀等都可以用两字节来表示了。看第二行的 ”UTF-8字节模板“ 这一列。110xxxxx 10xxxxxx 一共有16位，每8位一个字节。大家知道，在一个字节的时候，第一位是不能用的。两个字节的时候稍微不同了。在两个字节的时候，第一个字节的前三位给借去了，同时第二个字节的前两位也是给借去了。恩在这里，我们只要明白一个地方就行。 UTF-8 编码中当字符是两个字节表示的时候，第一个字节的编码值范围是多少？
第一个字节是： 110xxxxx 。那么也就是范围从 11000000 - 11011111 换成十六进制范围是 C2 - DF 。恩懂这一点，就足够了。以后遇到写 UTF-8编码下的截取函数、统计长度函数就不用怕了。

UTF-8 之三字节：

三个字节表示，是我们用的最多的，因为俺们写中文的嘛。不过这里注意下就是，三字节下的借位情况。继续看上图。 1110xxxx(E0-EF) 10xxxxxx 10xxxxxx 看到了吗？你懂的~ 如果还不懂...还是继续重头看起吧。 UTF-8 下一个字符三字节的。第一个字节的范围是多少? 这个必须弄清楚。范围是从 11100000 - 11101111 十六进制是： E0 - EF 。

UTF-8 之四字节：

这个遇到真不多。不过道理你真懂了。我就不说了

好了。我们完成了一个目标了：判断UTF-8下的字符的字节数。比如以后开发你遇到：

对于这段文字： "逆雪寒之PHP拾遗" 。我要在UTF-8下统计它的字符长度和实现截取字符窜。应该没那么心慌了。当然有人说，统计字符长度和截取中文字符窜不是很简单吗？mb_strlen 、 mb_substr 。的确是可以呀。但我想我们要知其然知其所以然。我们的目标是 PHP产品级研发。不是 PHP企业网站级研发 -_-! 。

接下来完成另外一个目标： 掌握从Unicode 转换成utf8编码的方法

我们继续看 unicode 字节位表。看第一列 unicode 编码范围。四个字节，所以就有四个范围。看这个 (0)000000 – (127)00007F 十进制从 0 开始到 127 。这个就是第一字节的unicode 范围。其他的也是同一个意思。

明白了上面讲的以后，现在开始讲 unicode 编码转换 UTF-8的流程：

我们用 “啊” 这个汉字为例，它的 Unicode 编码是 U+554A （怎么知道的？查 unicode 编码表呀大哥...）。然后我们转成UTF-8 ：

U+554A 换成十进制是 21834 。比对上面的 unicode 字节位表的第一列。看到 21834 是在三个字节的 (2048)000800 – (55295)00D7FF 范围之内。因为 “啊” 在UTF-8 里是三个字节的。

三个字节的UTF-8模板是(看 unicode 字节位表 ) 1110xxxx 10xxxxxx 10xxxxxx 。

"啊“ 的 U+554A换算成二进制是： 101 010101 001010

把15位二进制按照顺序的填入(不足最后补0) 三字节的 UTF-8 模板里面。也就是 11100101 10010101 10001010 。第一字节不足位，所以最前位补0.

最后结果，0xE5 0x95 0x8A 这三个就是 ”啊“ 字的UTF-8编码了。

<?php

$v1='E5';
$v2='95';
$v3='8A';
$v1=base_convert($v1, 16, 2);
$v2=base_convert($v2, 16, 2);
$v3=base_convert($v3, 16, 2);
echo $v1.$v2.$v3."************<br>";

$sss=$v1.$v2.$v3;

111001011001010110001010

0101010101001010****21834************啊

附送： Unicode 编码表 http://wenku.baidu.com/view/01a4feeae009581b6bd9ebe1.html

终于讲完了编码。。。那么回过头来。。讲了那么多废话就是为了解释。为啥 PHP能用中文来做变量名。 PHP官方文档给的变量名正则表达式'[a-zA-Z_\x7f-\xff][a-zA-Z0-9_\x7f-\xff]*' 。里面的\x7f \xff 我想大家都明白了吧。。。 \x7f - \xff 的十进制是： 127 - 255。那么按照我们之前上面讲的那些编码规则~ 每个字节的编码都是在 127 - 255范围之内对吧？除了一字节。那么也就是说中文无论是GBK GB2312 还是UTF-8编码的，
用来做变量名都是符合了'[a-zA-Z_\x7f-\xff][a-zA-Z0-9_\x7f-\xff]*' 这条正则的。接下来我们也不要浪费了前面所学了哪些编码知识。。我们要应用，我们要深入了解...所以开始写两个函数，估计大家都在开源的代码。比如啥 phpcms 啥 uchome discuz 里面看到过类似这些函数。没错~~！理解完上面的编码知识。我相信这些对你来说~~ 小菜一碟...

//截取字符串字串-GBK (PHP)
function gb_substr( $str , $len ){
$count = 0;
for ( $i =0; $i < strlen ( $str ); $i ++){
if ( $count == $len ) break ;
if (preg_match( "/[\x80-\xff]/" , substr ( $str , $i , 1))) ++ $i ;
++ $count ;
}
return substr ( $str , 0, $i );
}
//统计字符串长度-UTF8 (PHP)
function utf8_strlen( $str ) {
$count = 0;
for ( $i = 0; $i < strlen ( $str ); $i ++){
$value = ord( $str [ $i ]);
if ( $value > 127) {
$count ++;
if ( $value >= 194 && $value <= 223) $i ++;
elseif ( $value >= 224 && $value <= 239) $i = $i + 2;
elseif ( $value >= 240 && $value <= 247) $i = $i + 3;
else die ( 'Not a UTF-8 compatible string' );
}
$count ++;
}
return $count ;
}

【上篇】在WinXP下搭建Nutch1.7
【下篇】如何高效的生成不重复的随机数

作者: newwordgift

该日志由 newwordgift 于10年前发表在综合分类下，最后更新于 2014年09月28日.
转载请注明: ASCII 、GB2312、GBK、UTF-8 编码|0x7f-0xff | 学步园 +复制链接

抱歉!评论已关闭.

学步园

ASCII 、GB2312、GBK、UTF-8 编码|0x7f-0xff

ASCII 、GB2312、GBK、UTF-8 编码：

作者: newwordgift

书签

最新文章New

本站推荐

返回首页