浮点数的内存存储格式

来源：互联网发布：什么时候递归算法编辑：程序博客网时间：2024/04/27 22:21

我两年前就知道不应该用==号来判断浮点数的相等了,因为存在一个精度的问题,但是一直以来,都没怎么在乎这些东西,而实际上,我对于浮点数的结构,虽然了解,但并不清晰. 作为一个C++爱好者,应该尽量搞清楚每一个问题,所以我搞清楚了浮点数的内在表示及实现.在没有大问题的情况下,一切以易于理解和记忆为标准.
首先说一下原,反,补,移码. 移码其实就等于补码,只是符号相反. 对于正数而言,原,反,补码都一样, 对负数而言,反码除符号位外,在原码的基础上按位取反,补码则在反码的基础之上,在其最低位上加1,要求移码时,仍然是先求补码,再改符号.
浮点数分为float和double,分别占4,8个字节,即32,64位. 我仅以32位的float为例,并附带说double.
在IEEE754标准中,规定,float的32位这样分:
符号位(S)
1 阶码(E)
8 尾数(M)
23

这里应该注意三点:   A,阶码是用移码表示的,这里会有一个127的偏移量,它的127相当于0,小于127时为负,大于127时为正,比如:10000001表示指数为129-127=2,表示真值为2^2,而01111110则表示2^(-1).
                                     B, 尾数全都是小数点后面的数,
                                     C, 但尾数中省略了一个1,因此尾数全为0时,也是1.0...00;
接下来只要说明几个问题就明白了,以123.456为例,表示为二进制就是:N (2) = 1111011. 01110100101111001 ,这里,会右移6位,得到N (2) = 1.111011 01110100101111001*2^6; 这种形式就可以用于上图中的表示格式了.
符号位(S)
          0 阶码(E) 00000110 尾数(M) 11101101110100101111001

注意到,上面的阶码第一位为0表正,尾数比N(2)表示的第一位少了个1,这就是上面说的默认为第一位为1. 由于在将十进制转为二进制的过程中,常常不能正好转得相等, (当然,像4.0这样的就不会有损失,而1.0/3.0这样的必然损失),所以就产生了浮点数的精度问题, 实际上,小数点后的23位二进制数,能影响的十进制数的前8位,这是为什么呢?一般人在这时往往迷迷胡胡了,其实很简单,在上面表示的尾数中,是二进制的,小数点后有23位,最后一位的值为1时,它就是1/2^22=0.000000238实际取的时候肯定是0.0000002,也就是说,对于一个float型的浮点数,其有效的位数是从左到右数7位(包括缺省的1才是7位),当到达上面这个第8位时,就不可靠了,但我们的VC6可以输出最长的1.0/3.0为0.33333333333333331,这主要是编译器的问题了, 而并不是说浮点数小数点后的16位都有效. 如果不信的话,可以去试一下double类型的1.0/3.0, 得到的也将是小数点后17位. ..另外,编译器或电路板一般都有"去噪声"的"修正"能力,它能够使得超过7位的十进制数即使无效了也不会变得离谱,这也是上面为什么一直都是输出333而不是345之类的,. 可以这样试一下:
float f=123456789;
cout<<f<<endl;//这里肯定得到123456789.
这里有一个被人遗忘的问题,就是10进制小数怎么变为2进制小数,其实很简单,就是将10进的小数部分不断乘以2,进位时就将对应的2进制位写入1. 因此将上面的N (2) = 1.111011 01110100101111001*2^6;再转回十进制数时,很可能已经不再是123.456了. 好,精度问题应该说清楚了. 下面说示数范围.
阶码的示数位数是8位移码,最大为127最小为-127,这里的127用来作为2的指数,因此为2^127,约等于 1.7014*10^38, 而我们知道,float的示数范围约为-3.4*10^38-------3.4*10^38, 这是因为尾数的24位(默认第一位为1)全为1是,非常接近2, 1.11..11很明显约为2,因此浮点数的范围就出来了.

通过上面的格式，我们下面举例看下-12.5在计算机中存储的具体数据：
     Address+0     Address+1     Address+2     Address+3
Contents        0xC1                         0x48                           0x00                      0x00     接下来我们验证下上面的数据表示的到底是不是-12.5，从而也看下它的转换过程。
由于浮点数不是以直接格式存储，他有几部分组成，所以要转换浮点数，首先要把各部分的值分离出来。
     Address+0     Address+1     Address+2     Address+3
格式     SEEEEEEE     EMMMMMMM     MMMMMMMM     MMMMMMMM
二进制     11000001     01001000     00000000     00000000
16进制     C1                           48                            00                            00
       可见：
       S: 为1，是个负数。
       E:为 10000010   转为10进制为130，130-127=3，即实际指数部分为3.
       M:为 10010000000000000000000。这里，在底数左边省略存储了一个1，使用实际底数表示为 1.10010000000000000000000
       到此，我们吧三个部分的值都拎出来了，现在，我们通过指数部分E的值来调整底数部分M的值。调整方法为：如果指数E为负数，底数的小数点向左移，如果指数E为正数，底数的小数点向右移。小数点移动的位数由指数E的绝对值决定。
      这里，E为正3，使用向右移3为即得：
      1100.10000000000000000000
至次，这个结果就是12.5的二进制浮点数，将他换算成10进制数就看到12.5了，如何转换，看下面：
小数点左边的1100 表示为 (1 × 23) + (1 × 22) + (0 × 21) + (0 × 20), 其结果为 12 。
小数点右边的 .100… 表示为 (1 × 2-1) + (0 × 2-2) + (0 × 2-3) + ... ，其结果为.5 。
以上二值的和为12.5，由于S 为1，使用为负数，即-12.5 。
所以，16进制 0XC1480000 是浮点数 -12.5 。

上面是如何将计算机存储中的二进制数如何转换成实际浮点数，下面看下如何将一浮点数装换成计算机存储格式中的二进制数。
举例将17.625换算成 float型。
首先，将17.625换算成二进制位：10001.101   ( 0.625 = 0.5+0.125, 0.5即 1/2, 0.125即 1/8 如果不会将小数部分转换成二进制，请参考其他书籍。) 再将 10001.101 向右移，直到小数点前只剩一位成了 1.0001101 x 2的4次方（因为右移了4位）。此时我们的底数M和指数E就出来了：
底数部分M，因为小数点前必为1，所以IEEE规定只记录小数点后的就好，所以此处底数为   0001101 。
指数部分E，实际为4，但须加上127，固为131，即二进制数 10000011
符号部分S，由于是正数，所以S为0.
综上所述，17.625的 float 存储格式就是：
0 10000011 00011010000000000000000
转换成16进制：0x41 8D 00 00
所以，一看，还是占用了4个字节。

本文来自CSDN博客，转载请标明出处：http://blog.csdn.net/hziee_/archive/2007/01/08/1477427.aspx