
本文共 4492 字,大约阅读时间需要 14 分钟。
最近迷上了深入理解计算机系统这本书,看了有无符号数转换,卡了一个点,然后水了一下博客,发现这篇挺好的博客,讲解挺详细,希望有兴趣的能多花时间阅读,本篇博客主要讲解了有符号数和无符号数之间的转换:
1、什么是整数? 整数包含正整数,0,负整数。我们从小的数学常识,整数是无穷无尽的,即整数的大小没有限制。但是在计算机中则不能这样理解,因为计算机是靠数字信号来表示数,计算机所能处理的整数的长度是由计算机的字长来决定的,所以,在计算机中,我们必须制定一个规则来表示整数。
2、C 语言中的整型数据类型 C 语言是支持多种整型数据类型的,下面我们看一下在 32 位机器和 64 位机器中,C 语言整型数据类型的取值范围。

①、C 语言数据类型是可以用来指定大小,同时还可以指示表示的数是非负数(声明为 unsigned),或者负数(默认)。
②、数据类型分配的字节数会根据机器的字长和编译器有所不同,不同的大小所表示的范围是不同的。上图唯一一个与机器有关的取值范围是 long 类型的,64位机器使用8个字节(264),而32位机器使用4个字节(232)。
③、负数的范围要比正数的范围大1。这是为什么呢,请接着往下面看。
下面我们看一下 C 语言标准所定义的每种数据类型所能表示的最小的取值范围。

①、正数和负数的取值范围是对称的。
②、int 数据类型可以用 2 个字节来实现。(216)
③、long 数据类型用4 个字节来实现。(232)
3、无符号数的编码 无符号数,在C语言中,即用 unsigned 声明的整数。定义:假设对于一个w位的无符号整数,用二进制比特位可以表示为[xw-1 , xw-2 , … , x2 , x1 , x0]。那么我们可以用一个函数表示如下:




4、补码编码
上面我们讲解了正整数的编码,那么在实际应用中,是存在负数的。而在计算机中,最常见的表示有符号的数就是补码。补码的定义如下:



5、反码和原码
反码定义:除了最高有效位的权是-2w-1-1,而不是-2w-1其余的和补码表示方式一样



反码:将原码除最高位(符号位)外,其余各位按位取反,所得到的二进制码。正数的反码为原码。
补码:反码最低位加1即为补码。
对于正整数,原码、反码、补码完全一样,即符号位固定为0,数值位相同。
对于负整数,原码和补码互相转换的简便方法:从数的右边往左开始数,遇到“0”不理它,直到遇到第一个“1”为止,以后的每一位数取反即是它的原码或补码,符号位不变,还是“1”(补码的补码是原码)。
比如:11010100 ----- 从右往左数,第一位是0,不理它,第二位还是0不理它,第三位是1,那么从此以后的每位取反,即为它的补码了.答案为:10101100
事实上,程序员如果希望代码具有最大的可移植性,能够在所有可能的机器上运行,就应该用补码的形式来表示有符号整数。虽然过去生产过基于反码表示的机器,但是几乎所有的现代机器都是使用补码。
注意:浮点数有使用原码编码。
关于整型数据类型的表示和取值范围,Java标准是非常明确的,它要求采用补码形式,取值范围和C语言在64位机器中的情况一样。在Java中,单字节数据类型称为 byte,而不是char,而且没有long long 数据类型。这些具体的要求都是为了保证无论在什么机器上,Java程序运行的表现都能完全一样。
6、有符号和无符号数之间的转换 在 信息的存储和表示 这篇博客中我们讲过计算机在解释一个数据类型的值时主要有四个因素:位排列规则(大端或者小端)、起始位置、数据类型的字节数、数据类型的解释方式。对于特定的系统来说,前两种因素都是特定的,而对于后两种因素的改变,则可以改变一个数据类型的值的最终计算结果,这就是强制类型转换。那么考虑相同整数类型的无符号编码和补码编码,数据类型的大小是没有任何变化的,变化的就是它们的解释方式。比如1000这个二进制序列,如果用无符号编码解释的话就是表示8,而若采用补码编码解释的话,则是表示-8。
①、有符号数强转为无符号数前面我们说过:无论是无符号编码还是补码编码,其映射方式都是双射,因此它们都一定存在逆映射。如果我们定义U2Bw(x)为B2Uw(x)的逆映射,则对于任意一个整数x,如果0 =< x < 2w,经过U2Bw(x)的计算之后,将得到唯一一个二进制序列。同样的,如果我们定义T2Bw(x)为B2Tw(x)的逆映射,则对于任意一个整数x,如果-2w-1 =< x < 2w-1,经过T2Bw(x)的计算之后,也将得到唯一一个二进制序列。
可以很明显的看出,对于0到2w-1-1这个区间内的整数来说,两种编码得到的二进制序列是一样的。为了得到其它区间里的整数的映射关系,我们定义:T2Uw(x) = B2Uw(T2Bw(x))
这个函数代表的含义是补码编码转换为无符号编码的时候,先将补码编码转换为二进制序列,再将二进制序列转换为无符号编码,最终也就是补码编码转为无符号编码的计算。 下面我们简单的推算一下上面的定义,究竟是如何转换的,也就是有符号数 x 和与之对应的无符号数T2Uw(x) 的关系。我们将上面无符号编码和补码编码的公式相减,将0到w-2的位的加权和互相抵消),即
B2Uw(x) - B2Tw(x) = xw-12w-1 - (-xw-12w-1) = xw-12w将等式左边的B2Tw(x)移到等式右边,即
B2Uw(x) = xw-12w + B2Tw(x) 此处我们令x为T2Bw(x),则 B2Uw(T2Bw(x)) = xw-12w + B2Tw(T2Bw(x)) = xw-12w + x 即T2Uw(x) = xw-12w + x
此时考虑xw-1的情况,当xw-1为1时,也就是补码编码表示负数的时候,T2Uw(x)则为2w + x 。(此时x为负数,也就是说2w + x < 2w)若xw-1为0时,则补码编码为正数,此时T2Uw(x) = x 。
综上可知,有下列式子成立:

从这个式子中可以很明显的看出,最终得到的无符号数范围为0 =< x < 2w。
下图为表示补码编码与无符号编码的对应关系,可以看出在0至2w-1-1之间,两者是相等的,而其余区间则不同。

这里我们看一个小例子来理解一下:
#includeint main(){ char t = 0xFF; unsigned char u = (unsigned char)t; //%d把对应的整数按有符号十进制输出,%u把对应的整数按无符号十进制输出 printf("t=%d,t2u=%u\n",t,u); return 0;//c标准规定建议main函数返回值为int }
输出结果为:



②、无符号数转换为有符号数
相反,我们用同样的方式也可以证明从无符号编码到补码编码的公式,我们依然将无符号编码和补码编码的公式相减
即 B2Uw(u) - B2Tw(u) = uw-12w-1 - (-uw-12w-1) = uw-12w 即 B2Tw(u) = B2Uw(u) - uw-12w此时我们令u为U2Bw(u),
则 B2Tw(U2Bw(u)) = B2Uw(U2Bw(u)) - uw-12w = u - uw-12w 即 U2Tw(u) = u - uw-12w此时考虑uw-1的情况,当uw-1为0时,也就是无符号编码数值小于2w-1的时候,U2Tw(u)则为u 。
若uw-1为1时,也就是无符号编码数值大于或等于2w-1的时候,此时U2Tw(u)= u - 2w。(此时U2Tw(u)为负数,因为 u < 2w)综上,我们可以得到无符号编码转换为补码编码的公式


#includeint main(){ unsigned char u = 0xFF; char t = (char)u; //%d把对应的整数按有符号十进制输出,%u把对应的整数按无符号十进制输出 printf("u=%u,u2t=%d\n",u,t); return 0;//c标准规定建议main函数返回值为int }
输出结果:

发表评论
最新留言
关于作者
