浮点数的编码

来源：互联网发布：org.apache.felix 编辑：程序博客网时间：2024/04/30 11:50

（1）浮点数：
　　小数点位置可移动的数据称为浮点数，可用下式表示：N=M*RE
其中，M—尾数，
　　　R—阶的基数（也就是指数部分的底）。R 一般取2、8或16，为约定的常数，大多数机器 R 取定为2。
　　　E—阶的阶码。

　　当基数约定后，对浮点数的编码就只需对尾数和阶码部分进行编码。浮点数在机器中的形式如下：

尾数M用定点小数表示，阶码E是整数。 M乘以RE后小数点的位置改变，改变指数部分RE的值，小数点的位置随之变动，故称上述表示法表示的数据为浮点数。

（2）浮点数的编码
　　阶码E一般用移码或补码表示，尾数用原码或补码表示。

　机器零　当浮点数的尾数部分M=0时，不论阶码为何值，都看作是零值，称为机器零。
　上溢　浮点数的绝对值太大而机器不能表示的情况，此时浮点数的阶码大于机器所能表示的最大阶码。
　下溢　浮点数的绝对值太小（阶码小于机器所能表示的最小阶码）的情况称为下溢。当浮点数下溢时，通常将尾数各位强置为零，按机器零处理。

　　　　　　　　

（3）规格化浮点数
　　为了便于浮点数之间的运算与比较，也为了提高浮点数的精度，规定计算机中的浮点数尾数部分必须满足1/R≤|M|<1，也即，小数点后的第一位必须是有效数字。当尾数用补码表示，且R=2时，其规格化形式一般为：

上式表明，当尾数的最高数值位与符号位相反时，即为规格化形式。但对于M<0 有两种特殊情况需考虑。

　　　＊M=-1/2，按规定是规格化数，但[-0.5]补=1.10…0，与一般情况相悖，为便于硬件判断，特规定-0.5不　　　　是规格化的数（对补码而言）。

　　　＊M=-1，因小数补码允许表示-1，且［-1]补=1.00…0.故将-1作为规格化数（对补码而言）

（4）IEE754标准
现代计算机中，浮点数一般采用IEEE制定的国际标准，形式如下；

符号位s 阶码e 尾数总位数
　　　　　短实数（单精度数） 1 8 23 32
　　　　　长实数（双精度数） 1 11 52 64
　　　　　临时实数 1 15 64 80

在IEEE754浮点数标准中，符号位也是“0”表示正数，“1”表示负数。阶码也用移码表示，尾数也是规格化表示，但为如下形式：1.ff---f.在实际表示中，整数位的1省略，称隐藏位（临时实数不采用隐藏位方案）。由于尾数形式的变化，阶码部分也与一般移码不同，对短实数而言，[X]移=27+x-1=127+x,也就是说此种移码比一般移码的值小1，如.[810]移为13310 而不是13410。所以，短实数.长实数和临时实数的阶码偏移量分别为7FH、3FFH和3FFFH。单精度数所表示的数值为：（-1）5 1.ff---f*2e-127。

注意：浮点数的编码有多种方法，在实际应用时，首先一定要明确是哪种编码方法，分清各种编码方法的不同之处，这样才能不出差错。

4.文字的编码
(1) 西文字符的编码　目前常用的编码系统是ASCII码（American Standard Code for Information Interchange）。
ASCII码特点：
＊每个字符用7位二进制代码表示。在计算机中每个符号实际用8位表示，最高位置“0”或作为奇偶校验位。
＊共有128个符号。其中95个可印刷字符（包括空格），其余为控制字符。
＊字符0——9的高3位编码为011，低4位为0000——1001（正好为二进制形式的0—9），满足正常的排序关系，且大、小写英文一位字母编码的对应关系简单，大写字母的高2位编码10，低5位为00001-11010（为二进制形式的1—26），小写字母高2位为11，低5位也为0000—11010。
（2）中文编码
汉字编码分输入码、机内码和字形码等三大类。
汉字输入码　主要有数字编码、拼音编码和字形编码等。这几种编码方式都是利用相应的编码规则，用字母数字串代
　　　　　　替汉字，从西文标准键盘上输入汉字。
汉字机内码　用于汉字信息存储、交换、检索等的机内代码，一般用两个或三个字节表示一个汉字。为了区别于ASCII
　　　　　　码，汉字机内代码中字节的最高位均为“1”。
汉字字形码　根据汉字字形信息进行编码，存储在字形库中，用于汉字的输出，常用点阵表示汉字字形。
（3）十进制数的编码
＊字符串形式　　一个字节存放一个十进制的数位或符号，用连续的多个字节表示一个完整的十进制数据。
十进制数据的机内表示常用ASCII码。有前分隔字符串和串两种方式。

＃前分隔字符串　符号位在数字位之前单独占用一个字节。字符“+”（2B）16表示正号，“-”（2D）16表示负号。

＃后嵌入字符串将符号位嵌入最低一位数字里。规则：将“-”号变成（40）16与最低位数相加。“+”号省略。

上述两种表示方法主要用于非数值计算的应用领域，算术运算不方便。

＊压缩十进制数串形式　　一个字节存放两个十进制数位，用连续的多个字节表示一个完整的十进制数据。比前一种形式节省存储空间并且便于数据处理，应用广泛。
　　在压缩十进制数串形式中，可以用ASCII码的低4位或BCD码表示十进制数。符号位也用4位二进制代码表示，并放在最低数位之后（C）16=(1100)2代表正号，（D）16=(1101)2表示负号。
　　用十进制数串表示十进制数据的特点是位长可变，但需给出首地址和串长。

插入一点内容: 十进制小数变为二进制
例如：0.25，
转换过程为：0.25×2＝0.5，所以小数点后第一位取0
0.5×2＝1.0，所以小数点后第二位取1，现在十进制小数的小数点后为0，所以转换结束。结果为0.01。
例如：0.65，
转换过程：0.65×2＝1.3，取1，
          0.3×2＝0.6，取0，
          0.6×2＝1.2，取1，
          0.2×2＝0.4，取0………………
结果为0.1010……

好的，下面是实战，看一个简单的例子：(没了解实现机制之前真是头疼)

float f=0.5 ，应该表示为1* 2^(-1)

看到内存里是怎么表示的 f = 0x3f 00 00 00

二进制的表示是 0011 1111 0000 0000 ............

第31位是0，表示符号+

第23-30 是阶码,一般用移码表示,-1(1000 0001)的反码就是0111 1110 （这里用的反码），不错

第0-22位是基数，怎么是0，应该是1 啊，原来ieee754的浮点数使用了隐含位，即尾数部分要加上1才是真正的尾数

.... 真是的，规矩还真多

再看float f=2.5

0010.1 = 1.01*2(1)

正数，所以３２位为０

-1: 0000 0001+ 127 =128 =1000 0000

所以2.5 的内存表示为0100 0000 0000 .................. (0x40 00 00 00)

如果float f=-2.5

负的，所以32位为1

2.5=10.1=1.01*2^1

1+127=128=1000 0000

所以-2.5的内存形式就是1100 0000 0010 0000...................

16进制就是0xc0200000