【软件开发底层知识修炼】九链接器-可重定位文件与可执行文件

发布日期：2021-07-01 00:05:34 浏览次数：2 分类：技术文章

本文共 2815 字，大约阅读时间需要 9 分钟。

上几篇文章学习了Binutils辅助工具里面的几个实用的工具，那些工具对于以后的学习都是非常有帮助的，尤其是C语、C++语言的学习以及调试是非常有帮助的。点击链接查看上一篇文章：

本篇文章开始一个新的知识的学习，链接器的学习。学习完链接器的系列文章，我们将全面了解链接器的工作原理。

注意：本文讲解的并不是很详细，有些关键词例如符号、重定位、段等都没有具体说。这些比较原始的知识最好先去阅读相关书籍，进行补充。本文只是通过实验来理解链接器的作用！！！

文章目录

1、可重定位文件与可执行文件

我们都知道，源程序在经过gcc编译器编译后，实际上是经过四个步骤—预处理，编译，汇编，链接。最终得到一个可执行程序。这个可执行程序最终将会被操作系统的加载器加载带内存中去执行。

在经过汇编之后，生成的文件是可重定位文件，然后可重定位文件经过链接器的链接，最终生成可执行文件。今天我们就是来学习这个链接器的。

那么可重定位文件是一个什么样的文件？为什么它不能执行？

经过汇编后的文件是可重定位文件。它的文件格式与可执行文件很像（对于Linux，都是elf文件格式）。对于可重定位文件，它里面的代码与数据，都是各个文件独立的代码与数据，在一个工程中，会存在多个C文件，每个C文件都会被首先编译生成一个可重定位文件，然后经过链接器将这些可重定位文件进行链接，从而生成最终的可执行文件。

对于可重定位文件：

各个段没有具体的起始地址，只要段大小信息

各个标识符没有实际地址，只有在段中的偏移地址（相对地址）

段和标识符的实际地址都需要链接器具体制定，这也是链接器的主要作用

对于可执行文件：

各个段有自己的起始地址，这些地址就是将来要被加载到内存中的地址（虚拟内存），有了起始地址，才能说加载到内存，不然都不知道加载到哪里，何来的执行呢？这就是可执行文件与可重定位文件一个区别

可执行文件中的各个符号，都有了正确的地址，以及符号被引用的地方也正确填上了符号的地址

以上内容，说的很简单，如果不懂，参考《程序员的自我修养》与《深入理解计算机系统》第7章

2、通过代码分析，具体了解链接器的作用

链接器的作用简单的说就是：

符号解析

重定位

下面我们以具体的程序例子来说明：

test.c

#include 
   
    int g_global = 0;int g_test = 1;extern int* g_pointer;extern void func();int main(int argc, char *argv[]){
       printf("&g_global = %p\n", &g_global);    printf("&g_test = %p\n", &g_test);    printf("&g_pointer = %p\n", &g_pointer);    printf("g_pointer = %p\n", g_pointer);    printf("&func = %p\n", &func);    printf("&main = %p\n", &main);        func();	    return 0;}

func.c

#include 
   
    int* g_pointer;void func(){
       g_pointer = (int*)"D.T.Software";    return;}

对上述两个源程序进行编译生成两个可重定位文件：

gcc -c func.c -o func.o

gcc -c test.c -o test.o

生成了可可重定位文件func.o与test.o

我们使用上几篇文章的学习的Binutils辅助工具来查看这两个可重定位文件的符号信息：

nm func.o

nm test.o

可以看到，在test.o与func.o中，各个符号的地址都是0，而且有的符号还是未定义的。地址为0是因为，在没有链接之前，各个可重定位文件是独立的，他们无法加载到内存中去执行，各个符号还没有进行重定位。而又的符号未定义是因为该文件中引用了外部文件的代码或者数据。比如上述代码test.c程序中引用了func.c程序中的g_pointer变量与func()函数，那么在test.c程序中他们就是未定义的，需要将test.o与func.o链接，才能使整个程序是完整的。