死磕浮点数——浮点数精度之谜-白红宇的个人博客

死磕浮点数——浮点数精度之谜

发布日期：2021-05-14 08:57:16 浏览次数：19 分类：精选文章

本文共 1138 字，大约阅读时间需要 3 分钟。

浮点数运算中的精度丢失问题是所有编程语言中普遍存在的现象，尤其是在使用32位或64位的浮点数类型时。这种问题的根本原因在于浮点数的二进制表示方式及其运算机制。以下是对该问题的深入分析：

1. 浮点数的二进制表示

浮点数在计算机中以二进制形式存储，主要使用三种表示方法：原码、反码和补码。

原码：符号位表示正负，数值位直接存储数字。优点直观，缺点在运算时容易出错。

反码：正数与原码相同，负数符号位为1，数值位取反。

补码：正数与原码相同，负数反码加1。

IEEE 754标准规定了单精度（32位）和双精度（64位）浮点数的存储方式：

单精度：1位符号，8位指数，23位有效数字。

双精度：1位符号，11位指数，52位有效数字。

有效数字的表示方式默认第一位为1，后面的位数存储小数部分。指数部分使用偏移值处理负数，以简化运算。

2. 浮点数的加法运算

浮点数加法分为对阶、尾数求和、规格化、舍入和校验判断五个步骤：

对阶：使小数点对齐，尾数右移或左移。

尾数求和：对齐后的尾数相加。

规格化：将尾数的小数点移到前面，形成1.M形式。

舍入：舍去多余的有效数字，保留精度。

校验判断：检查结果是否溢出或下溢。

3. 实例分析

以0.2和0.4的加法为例：

0.2的二进制表示：0 01111101 10011001100110011001100

0.4的二进制表示：0 01111101 11001100110011001100100

对阶后：

0.2：0 01111101 00110011001100110011001100

0.4：0 01111101 11001100110011001100100

尾数求和：

00110011001100110011001100 + 11001100110011001100100 = 11111111001110011001100

规格化后：

0 01111110 10011001100110011001100

舍入后：

1.10011001100110011001100

校验结果为0.5999999643，接近0.6但不完全相等。

4. 误差处理方法

为了避免浮点数运算的误差，可以采用以下方法：

将浮点数转换为整数：通过放大或缩小小数点进行运算，这样可以避免直接操作浮点数。

使用高精度库或大整数运算：例如，使用JavaScript的BigInt类型来处理大数，确保精度。

5. 结论

浮点数运算中的精度丢失问题是由于其二进制表示和运算机制的特性所决定的。理解这些原理有助于开发者在编写代码时更好地处理浮点数运算，避免因为精度问题导致的错误。通过采取适当的方法，如将浮点数转换为整数运算，可以有效减少误差，提高计算的准确性。

上一篇：死磕浮点数——浮点数格式与存储

下一篇：提升代码的运算速度——代码优化的方法总结

发表评论

关于作者

喝酒易醉，品茶养心，人生如梦，品茶悟道，何以解忧？唯有杜康！

-- 愿君每日到此一游！