IEEE 754浮点数表示标准

二进制数的科学计数法

C++中使用的浮点数包括采用的是IEEE标准下的浮点数表示方法。我们知道在数学中可以将任何十进制的数写成以10为底的科学计数法的形式,如下

其中显而易见,因为如果a比10大或者比1小都能够再次写成10的指数的形式,如

然而要想在二进制的世界中将数字写成以10为底的科学计数法的形式,着实有点麻烦,因为你首先需要将二进制的数先化成10进制的表示方法,然后才能写成科学计数法的形式。但是如果我们稍微变通一下科学计数法的标记方法,问题就变得特别的简单了。之所以数学上使用的科学计数法选用10为底,是因为我们通常使用的计数方式是十进制的。在计算机的世界中我们使用的数却是二进制的,所以我们在这个世界中应该改用以2为底的科学计数法而不是10为底的科学计数法。此时我们使用的科学计数法就表示成了如下形式,

对于一个二进制的数来说是不言而喻的,以为例

IEEE 754标准下的存储策略

IEEE标准下的浮点数存储包括三个基本的组成:符号位、指数、尾数(the sign, the exponent, the mantissa),尾数是由小数部分和一个隐含的前导数位组成。至于前导数位隐含的原因很简单(下面将会解释)。

下面的表格展示了计算机存储单精度和双精度浮点数的层次结构,包括每一部分的比特位(比特范围用方括号括出,00表示最低位)

Floating Point Components
  Sign Exponent Fraction
Single Precision 1 [31] 8 [30-23] 23 [22-00]
Double Precision 1 [63] 11 [62-52] 52 [51-00]
  • 符号位

符号位非常简单,位于存储浮点数的最高比特位,且只占1比特。0表示正数,1表示负数。通过改变该比特位的值可以改变该浮点数的符号。

  • 指数位

因为指数位既需要能够表示正指数也需要能够表示负指数,为了能够做到这一点,需要将真实的指数数值加上一个偏移值获得用来存储的指数值。对于IEEE标准下的单精度浮点数,这个偏移值是127。因此当真实的指数为0的时候,我们存储的指数位为127。如果存储的指数值是200,那么真实的指数值就应该是(200-127),即73。后面的原因会指出,指数为-127(指数位全为0)和+128(指数位全为1)会被用来存储特殊的数值。

对于双精度的浮点数,指数位的长度位11比特,偏移量位1023。

  • 尾数

尾数也被称为有效数位(significand),决定浮点数的精确度。它由隐含的前导数位(小数点左边的部分)和小数部分(小数点右边的部分)组成,因为我们采用以2为底的科学计数法表示二进制数,那么小数点左边的尾数部分自然是固定值1(),所以前导数位我们不需要明确的表示出来,我们只需要存储尾数的小数部分就可以了。

浮点数存储示例

下面就以单精度浮点数来浮点数的存储策略。

十进制数0.1562510 写成二进制的形式为0.001012。通过乘以以2为底的指数,将小数点向右移动3位后得到

这个时候我们就能够确定它的尾数的小数部分和指数分别是多少了,尾数的小数部分位.012,指数为-3。具体存储方法见下图,

在IEEE 745标准下,我们用三部分来表示一个浮点数:

  • sign = 0, 因为该浮点数为正数(用1表示负数);
  • 真实的指数是-3,但是我们用来存储的指数要在真实的指数上加上偏移量。在单精度浮点数中,这个偏移量是127,在双精度浮点数中这个偏移量是1023;所以我们这里用来存储的指数应该为(-3+127),即124。

浮点数的范围

我们先来考虑单精度浮点数的范围问题。注意到我们用来存储双精度浮点数的是一块长为32bits的内存,我们重新解释了一下该快内存中数字的存储规则使得表示数的范围大大增加。但是我们看看这样子带来了什么问题?

对于32bits的无符号整数来说,它可以表示0~232-1范围内的任意整数。但是单精度的浮点数却做不到这一点,因为浮点数的存储策略中用来存储尾数的长度只有24bits,这个时候单精度浮点数就会把将底位的部分截断,例如

11110000 11001100 10101010 10101111  // 32-bit integer
= +1.1110000 11001100 10101011 x 2^31     // Single-Precision Float
=   11110000 11001100 10101011 00000000  // Corresponding Value

这样的方法可以近似32bits的值,但是并不能得到准确的结果。忽略精确度的问题,浮点数能够表示的范围是2127,而32bits整数的表示范围是232

特殊值

按照上面的浮点数表示方法,我们发现并不能表示出数值0的大小。因为我们认为前导数位的值永远为0,这个时候无论尾数的小数部分和指数部分怎么取,浮点数的值都不会是0。为此我们规定,当指数位全部为0且尾数的小数位全为0时,这个时候浮点数的值为0。注意,+0和-0时两个不同的浮点数,即使他们的数值一样,但是浮点数的表示方式不一样。

  • 非标准化的值

当指数部分全为0,但时小数位不全为0的时候,这个时候浮点数表示的值就是非标准化的值。这个时候我们认为该浮点数的前导数位为0,因此这个时候的单精度浮点数大小为(−1)s × 0.f × 2−126,双精度浮点数的大小为(−1)s × 0.f × 2−1022,其中s为符号位上的数值,2为底的指数分别是-126和-1022,而不是-127和-1023。具体原因很简单,因为标准化所能表示的最小值是(−1)s × 1 × 2−126和(−1)s × 1× 2−1022。提出非标准化的目的就是为了表示更小的值从而提高精确度。

  • 无穷大

当指数位全为1,而尾数的小数部分全为0时表示+∞和−∞,同时通过符号位来区分+∞和−∞。所以采用IEEE 754标准表示浮点数可以很好的处理无穷大的情况。

  • 非数字(NaN)

NaN(Not a Number)用来表示非数字的值,当指数位全为1且尾数的小数部分不为0时表示NaN值。一共有两类NaN值,静态非数(QNaN, Quiet NaN)和警告非数(SNaN, Signalling NaN)。

在一个NaN的值中,如果尾数小数部分首位被置位则表示QNaN。QNaN是很重要的一类非数,四则运算经常传递QNaN值,该值通常表示不被数学上定义的运算结果,比如除数为零的时候。

在一个NaN的值中,如果尾数小数部分首位被置0则表示SNaN。它别用来表示操作中的一个异常,可以用来表示一个未被初始化变量的过早使用。

Reference:

[1] http://steve.hollasch.net/cgindex/coding/ieeefloat.html

[2] https://en.wikipedia.org/wiki/IEEE_754-1985

时间: 2024-10-12 20:56:08

IEEE 754浮点数表示标准的相关文章

IEEE 754 浮点数的表示精度探讨

IEEE 754 浮点数的表示精度探讨 前言 从网上看到不少程序员对浮点数精度问题有很多疑问,在论坛上发贴询问,很多热心人给予了解答,但我发现一些解答中有些许小的错误和认识不当之处.我曾经做过数值算法程序,虽然基本可用,但是被浮点数精度问题所困扰:事情过后,我花了一点时间搜集资料,并仔细研究,有些心得体会,愿意与大家分享,希望对IEEE 754标准中的二进制浮点数精度及其相关问题给予较为详尽的解释.当然,文中任何错误由本人造成,由我承担,特此声明. 1. 什么是IEEE 754标准? 目前支持二

IEEE 754 浮点数在计算机中的表示方法

IEEE二进制浮点数算术标准(IEEE 754)是20世纪80年代以来最广泛使用的浮点数运算标准,为许多CPU与浮点运算器所采用.这个标准定义了表示浮点数的格式(包括负零-0)与反常值(denormal number)),一些特殊数值(无穷(Inf)与非数值(NaN)),以及这些数值的“浮点数运算符”:它也指明了四种数值舍入规则和五种例外状况(包括例外发生的时机与处理方式). IEEE 754规定了四种表示浮点数值的方式:单精确度(32位).双精确度(64位).延伸单精确度(43比特以上,很少使

IEEE二进制浮点数算术标准学习

看到有网上有个项目是要求将浮点数用二进制表示出来,需要用IEEE754标准,查了查维基和深入理解计算机系统,重新学习了一遍浮点数在计算机中的表示和内存中的存储, 先简单的做个笔记,后面需要更深入的理解. IEEE754定义了四种表示浮点数的方式:单精度(32bit),双精度(64bit),延伸单精度(43bit以上),延伸双精度(79bit以上),后两者很少使用,这里讲的是前面两种. 用二进制来表示浮点数分三个部分,以下都已32bit的单精度为例,双精度类似可以推算出来: 三部分为:符号位(si

IEEE 754标准浮点数

一.IEEE 754浮点数的表示 浮点数数学表示: 符号位(sign):决定该浮点数的正负 尾数(significand):二进制小数,范围在[1,2)或者[0,1)中 阶码(exponent):对浮点数加权,权重为2的E次幂 单精度浮点数:在单精度的浮点数中,符号位编码为1位二进制位,阶码编码为为8位二进制位,尾数编码为23位二进制位: 双精度浮点数:在双精度浮点数中,符号位编码为1位二进制位,阶码编码为为11位二进制位,尾数编码为52位二进制位: 二.浮点数编码知识储备 <1>浮点数阶码的

如何理解IEEE 754标准对Java中float值和double值的规定

在Java语言中,我们可以使用float和double这两种基本数据类型来表示特定的数据. 这两种数据类型,本质上是浮点数(floating-point number),浮点是一种对于实数的近似值数值表现法,由一个有效数字加上幂数来表示. 之所以使用浮点数,是因为计算机在使用二进制运算的过程中,无法将所有的十进制小数准确的换算为二进制,只能使用近似值来表示. 使用浮点数表示数值的方法很多,在Java中,和C语言一样,float和double都采用了使用最为广泛的IEEE 754标准. IEEE

浮点数标准IEEE 754相关材料

下面的内容不是必须掌握的,是为了满足一些好奇心强同学的需要.IEEE 754目前为C标准所支持,而且许多硬件均支持,可以说目前浮点数处理基本是IEEE 754的天下.http://zh.wikipedia.org/wiki/IEEE_754 中文材料1.4 IEEE 浮点运算标准 - 华东师范大学数学系这个比较简略,http://www.pediy.com/kssd/pediy06/pediy6610.htm 该文中有几个更具体的例子,本人未仔细核实http://people.uncw.edu/

IEEE 754标准

IEEE 754-1985 was an industry standard for representing floating-point numbers in computers, officially adopted in 1985 and superseded in 2008 by IEEE 754-2008. During its 23 years, it was the most widely used format for floating-point computation. I

IEEE 二进制浮点数的表示

朋友在谈一个物流相关的项目,是以前项目的一个延续,涉及到后台的扩展,手机端的App,外加两个App的对接的蓝牙打印机.这个项目前后说了一个多月了吧,最近才草拟了协议.项目本来不复杂,但是客户却如此的拖延.我觉得客户做事好慢,而朋友觉得是自己的就是自己的,不是自己的急也没有用.不断的打电话询问客户,可能最后还被压价,反而更没办法做了.他其实比我还急,但是人家的心态好.的确凡事急不得. 浮点数 在 C 语言中,有两种存储浮点数的方式,分别是 float 和 double ,当然了还有long dou

IEEE754二进制浮点数算术标准

对于32位浮点数 sign: 符号,1位 exponent: 指数,8位,偏码 fraction: 分数,23位,原码 特殊值   指数域的编码值 = 指数的实际值 + 127 这样按照字典序的顺序就可以比较两个指数域的编码值的大小,在比较两个浮点数大小时比使用原码方便 规约形式 “规约”是指用唯一确定的浮点形式去表示一个值. 即要求fraction部分最高有效位为1,且指数域的编码值不为0 由于这种表示下的尾数有一位隐含的二进制有效数字(因为最高位总是1,所以按照规约数解析时,自动在最前面添加