现在的位置: 首页 > 综合 > 正文

计算机如何处理浮点数

2018年02月09日 ⁄ 综合 ⁄ 共 1834字 ⁄ 字号 评论关闭

■ 现实生活中的小数

数学中的小数,又称为实数。一般用十进制表示

例如: 3.14159265

■ 科学计算法
数学中的科学计算法许多种表示法

3.14159265 = 0.314159265 × 101

■     计算机中浮点数的表示

 

在计算机中的使用科学计数法是一种“规格化计数法”。

 

● 规格化计数法

用科学计数法表示实数时,如果最左边的第一个数字不是0,则被称为“规格化计数法”

0.1    × 10-2   不是规格化计数法

1.0    × 10-3   则是规格化计数法

 

 

● IEEE 754 标准

IEEE 754 标准成立于1985年,80年代起所有的计算机系统均支持IEEE 754

IEEE 754 对浮点数在计算机表示方法有三个主要的规定:

 

 

对于单精度(single precision):单精度浮点数位长:32位

 

(1)     IEEE 754 标准规定:第1位为符号位,1 代表负,0代表正

(2)     接下来用8位来表示指数部分, 考虑到正负,最大可以表示2^(8-1)即128,整个float可以表示 2^128即 3.4*10的38次方(取以10为底的阶计算)。

(3)     接下来的23位用来表示有效数位

 

0       0 0 0 0 0 0 0 0      0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0

-       ---------------       ---------------------------------------------

S      指数(8位)              有效数位 (23 位)

 

 

★ IEEE 754 考虑到利用现有的整数比较指充,对浮点数能进行快速的比较和排序,由于指数部分大小能快速反应出浮点数的大小,所以,在符号位接下来的8位用来表示指数,有效数位的大小反应出浮点数的精度。安排在最后的23位

 

★     对于规格化二进制浮点示法而言,有效数位的第1位必定是1而不是0,因此,IEEE 754 规定:实际有效数位中的第1位被省去,因而,有效数位中默计含有1位。

 

★     移码:除了将指数安排在有效数位前面,还不足以快速比较两个浮点数的大小,例如:

 

1.0     × 2 -1 在计算机中表示为:0 11111111 00000000000000000000000

这个数相当于整数的 0x7F800000

 

1.0     × 2 1 在计算机中表示为:0 00000001 00000000000000000000000

这个数相当于整数的 0x00800000

 

如果用整数比较指令,比较两个数,1.0 × 2 -1   竟然比 1.0 × 2 1   还大!

 

为了解决这个问题,IEEE 754 设计了一个方案:将指数加上一个常数 127

这个常数 127 被称为“移码”(biased notation)

 

我们再来看一看:

1.0 × 2 -1 将指数: -1 + 127 = 126 后,得出以下的二进制数:

0 0111110 00000000000000000000 也就是: 0x3F000000

 

1.0     × 2 1 将指数:1 + 127 = 128 后,得出以下的二进制数:

0 10000000 00000000000000000000 也就是:0x40000000

 

这样的话,就可以得出正确结果了。

 

 

 

对于双精度(double precision)浮点数来说:位长64 位

(1)IEEE 754 标准规定:第1位为符号位,1 代表负,0代表正。

(2)接下来用11位来表示指数部分。

(3)接下来的52位用来表示有效数位。

 

★ 双精度浮点数用52位来表示有效数位,11位表示指数位,这样提高浮点数的精度,也还提高了浮点数的取值范围。

 

★     双精度的移码为 1023

 

 

 

例子:

1、将 -0.625 转化为计算机中的二进制数浮点数

解:

-0.625 = -5/8 = -5/23   = -101 × 2-3   = -1.01 × 2-1

 

符号位:1

指数位:-1 + 127 = 126

有效数位:1.01(在机器中要相应去掉默认位)

 

所以,在机器表示的二进制序列为:1 01111110 0100000000000000000000

相当于整数:0xBF200000

 

 

2、将如下二进制序列用十进制浮点数表示。

11000000101000000000000000000000

 

解:

符号位:1 是负数

指数位;10000001 = 129, 这个数要减去移码值,即:129 – 127 = 2

有效数位:01000000000000000000000 这个数要加上默认1,即得:1.01

 

整个序列结果为:- 1.01 × 22    = -101 = -5.0

抱歉!评论已关闭.