对java中的浮点数表示的理解

来源:互联网 发布:linux就该这么学pdf 编辑:程序博客网 时间:2024/04/30 20:31

浮点数 分为三部分表示,一是符号sign,用s表示,二是指数e,三是底数m。

对于一个32bit的数字,

第31位代表s位,第30-23位代表e,后面第22-0位代表m。

××××     ××××       ×  ×××     ××××     ××××     ××××    ××××     ××××

 

IEEE754的规定如下:

   int   s   =   ((bits   >>   31)   ==   0)   ?   1   :   -1;   
   
int   e   =   ((bits   >>   23)   &   0xff);   
   
int   m   =   (e   ==   0)   ?   
                                    (bits   
&   0x7fffff)   <<   1   :   
                                    (bits   
&   0x7fffff)   |   0x800000;   

 

我将其用我的语言表达一下:

 


    int s=第31位为0?正数:负数;
int e=第30-23位数字表达成十进制数-127单精度(float)型的幂用加上127后用8位二进制数表示);
float m=(e!=0)?(1+(第22-第0位的二进制数表达为十进制数×2^(-23)):
                                    (第22
-第0位的二进制数表达为十进制数×2^(-23)<<1):

 

问题1:当e!=0时,为什么要在m前面+1呢?实际上就是后23位前加入了“1.”,为了使得不同的二进制序列表达不同的意思,充分利用各个数字。则我们可能认为在后23位前加入了“0.”。

如果不加1,则0 000 0001 0 001 0000 0000 0000 0000 0000 表示(2^ -3)×2^2×2^(-127);

和0 000 0001 1 010 0000 0000 0000 0000 0000 :(2^ -2)×2^3 ×2^(-127);表达同一个数字,

两个编码表达同一个数字,这就是浪费,为了避免浪费,就在前面+1,这样

0 000 0001 0 001 0000 0000 0000 0000 0000 表示(1+2^ -3)×2^2×2^(-127);;

和0 000 0001 1 010 0000 0000 0000 0000 0000 表示(1+2^ -2)×2^3×2^(-127);

于是,这两个编码所表达的数字就不一样了。


问题二:当e=0时,为什么前面不加“1.”了呢?如果前面还+1,那最小的正数就变成

0 000  0000 0 000 0000 0000 0000 0000 0000:为1×2^(-127);感觉精度还不够精细,

另外,那样的话,0就没法表示了。所以,这个时候前面不加“1.”而加“0.”


问题三:当e=0时,前面加“0.”,这时计算m的时候为什么要左移一位呢?

这个个人认为是数字表达的连续,如果不左移一位,那我们在

0000 0000 0111 1111 1111 1111 1111 1111  不左移的话,表示为0.111……(23个1)×2^(-127)

0000 0000 1000 0000 0000 0000 0000 0000 表达数字1×2^1×2^(-127)之间有缺口,处于这两个浮点数之间的浮点数无法用二进制编码表示。为了填补这个缺口,我们宁可牺牲点精度。于是按照IEEE754约定

0000 0000 0111 1111 1111 1111 1111 1111  表达浮点数1.111……(22个1,最后一个编码为0)×2^(127);

与1×2^1×2^(-127)之间的差为2^(-23)×2^1×2^(-127),这个就是浮点数的精度

2×2^(-150),也是能表达的最小的浮点数:0000 0000 0000 0000 0000 0000 0000 0001。

于是,按照IEEE754那样表达浮点数,从理论上来说相对比较完善了。

希望大家看完之后,能受到点启发,加深对浮点数表示的理解。IEEE754是一个标准,制定标准的人自然考虑比较周全,他们那么表示自然有他们的理由,希望我的理解对了。