IEEE浮点数表示

现在的位置: 首页 > 综合 > 正文

IEEE浮点数表示

2013年11月26日 ⁄ 综合 ⁄ 共 2644字 ⁄ 字号小中大 ⁄ 评论关闭

文章目录

IEEE 浮点数标准的由来
单精度浮点数
双精度浮点数
扩展精度浮点数
浮点数表示示例

(文档大部分属转载, 其余属个人修善)

IEEE 浮点数标准的由来

话说 Intel 计划给最早的 8086 增加浮点运算单元 (FPU) 时，他们请来了最好的数值分析专家来为 8087 FPU
设计浮点数格式，这位专家接着又请来了该领域的另外两位专家，这三个人 (Kahn, coonan 与 Stone) 设计了 Intel
的浮点格式，即 KCS 浮点数标准。这个标准实在太出色了，因此 IEEE 组织将 KCS 选作为 IEEE 浮点数格式的基础，即 IEEE
标准 754。

单精度浮点数

IEEE 754 标准所定义的单精度浮点数的长度为 32 位，按位域可划分为：符号位、阶码位与尾数位，如下：

  31----------------------22---------------------------------------------------------0

  |                       |                                                          |

  X X X X    X X X X    X X X X    X X X X    X X X X    X X X X    X X X X    X X X X

  | |-------------------| |----------------------------------------------------------|

符号        阶码                                     尾数

符号位取 0 表示正数，取 1 表示负数。

阶码位是 8 位，这里有一点需要注意，那就是 $2^n$
的指数 n 并不能直接当作阶码来处理，需要将其与 127 (0x7f) 相加才可得到 $2^n$
的阶码表示。

尾数的位域长度在图示中是 23 位，但实际上却是 24 位，这个位是“不可见”的，其值固定为 1，这也就是说 IEEE 754 标准所定义的浮点数，其有效数字是介于 1 与 2 之间的小数。

可以尝试写一下 1.0 这个数的二进制单精度浮点格式，这有助于更好地理解单精度浮点数格式的位域分布。

1.0 的二进制单精度浮点格式：0 0111 1111 000 0000 0000 0000 0000 0000


值得注意的一个问题是：书上说之所以要将指数加上 127 来得到阶码，是为了简化浮点数的比较运算，这一点我没有体会出来。但是通过 127
这个偏移量 (移码)，可以区分出指数的正负。阶码为 127 时表示指数为 0；阶码小于 127 时表示负指数；阶码大于 127 时表示正指数。

第二个值得思考的问题是：使用 24 位尾数，大概可以得到 $6/frac{1}{2}$
个十进制数字的精度，其中的“半个”数字由 FPU 的好意而产生的一个随机数字，这个数字通常接近 5 (四舍五入？)。

第三个问题是我经常要碰到的：IEEE 754 标准所定义的单精度浮点数所表示的数的范围是多少？书上给出的答案是大约为 $2^{/pm128}$
或者大约 $10^{/pm38}$
。这个比较好理解，因为尾数的最大值是接近 2，而指数的范围是 [-127, 127]，那么这个范围就可以表示为 $2/times2^{/pm127}$
。

浮点数的存储

大家都知道任何数据在内存中都是以二进制（1或着0）顺序存储的，每一个1或着0被称为1位，而在x86CPU上一个字节是8位。比如

一个16位（2字节）的short int型变量的值是1156，那么它的二进制表达就是：00000100 10000100。由于Intel

CPU的架构是Little Endian（请参数机算机原理相关知识），所以它是按字节倒序存储的，那么就因该是这样：10000100

00000100，这就是定点数1156在内存中的结构。

那么浮点数是如何存储的呢？目前已知的所有的C/C++编译器都是按照IEEE（国际电子电器工程师协会）制定的IEEE

浮点数表示法来进行运算的。这种结构是一种科学表示法，用符号（正或负）、指数和尾数来表示，底数被确定为2，也就是说是把一个浮点数表示为尾数乘以2的

指数次方再加上符号。下面来看一下具体的float的规格：

float


共计32位，折合4字节


由最高到最低位分别是第31、30、29、……、0位


31位是符号位，1表示该数为负，0反之。


30-23位，一共8位是指数位。


22-0位，一共23位是尾数位。


每8位分为一组，分成4组，分别是A组、B组、C组、D组。


每一组是一个字节，在内存中逆序存储，即：DCBA

双精度浮点数

相对于单精度浮点数格式，双精度的阶码变为 11 位，移码变为为 1,023，尾数变为 53 位 (包含那个固定为 1 的隐含位)。这样，再加上符号位，双精度浮点数的长度为 64 位，提供了大约 $10^{/pm308}$
的动态范围以及 $14/frac{1}{2}$
个数字的精度。

扩展精度浮点数

为了追求更高的浮点运算精度，Intel 又搞出来扩展精度格式。扩展精度的浮点数长度为 80 个位，相对于双精度浮点数所多出来的 16 个位，有 12 位加入到尾数位中，有 4 位加入到阶码位中。

据说 Intel IA32 架构的的 FPU都是采用扩展精度浮点数进行运算的。当程序调入单、双精度浮点数时，FPU 将它们转为扩展精度，运算结束后再将结果转成 (四舍五入) 对应的单、双精度浮点数。

浮点数表示示例

现在让我们按照IEEE浮点数表示法，一步步的将float型浮点数123456转换为十六进制代码。在处理这种不带小数的浮点数
时，直接将整数部转化为二进制表示：1 11100010
01000000也可以这样表示：11110001001000000.0然后将小数点向左移，一直移到离最高位只有1位，就是最高位的
1：1.11100010010000000一共移动了16位，在布耳运算中小数点每向左移一位就等于在以2为底的科学计算法表示中指数+1，所以原数就
等于这样：1.11100010010000000 * ( 2 ^ 16
)好了，现在我们要的尾数和指数都出来了。显而易见，最高位永远是1，因为你不可能把买了16个鸡蛋说成是买了0016个鸡蛋吧？（呵呵，可别拿你买的臭
鸡蛋甩我~），所以这个1我们还有必要保留他吗？（众：没有！）好的，我们删掉他。这样尾数的二进制就变成了：11100010010000000最后在
尾数的后面补0，一直到补够23位：11100010010000000000000（MD，这些个0差点没把我数的背过气去~）

再回来看指数，一共8位，可以表示范围是0 - 255的无符号整数，也可以表示-128 -
127的有符号整数。但因为指数是可以为负的，所以为了统一把十进制的整数化为二进制时，都先加上127，在这里，我们的16加上127后就变成了
143，二进制表示为：10001111
12345.0f这个数是正的，所以符号位是0，那么我们按照前面讲的格式把它拼起来：
0 10001111 11100010010000000000000
01000111 11110001 00100000 00000000
再转化为16进制为：47 F1 20 00，最后把它翻过来，就成了：00 20 F1 47。
现在你自己把654321转为二进制表示，自己动手练一下！

【上篇】RECT类
【下篇】LPC1756_C_串口收发_循环缓冲区

作者: dodgeball

该日志由 dodgeball 于10年前发表在综合分类下，最后更新于 2013年11月26日.
转载请注明: IEEE浮点数表示 | 学步园 +复制链接

抱歉!评论已关闭.

学步园