elf格式分析

近期研究了一下elf文件格式,发现好多资料写的都比較繁琐,可能会严重打击学习者的热情,我把自己研究的结果和大家分享,希望我的描写叙述可以简洁一些。

一、基础知识

elf是一种文件格式,用于存储Linux程序. 它内部都有一些什么信息呢?大概包含编制好的计算机指令,数据,计算机在须要的时候把这个文件读取到内存中,cpu就能够从内存中一条一条的读取指令来运行了。

所以说想明确elf格式,我们应该了解一下计算机运行程序须要那些信息。所以这一节,我们补充一些计算机系统的基础知识。

进程和虚拟内存:

Linux系统给每一个进程分配了4GB的空间,当中 0xC0000000到0xFFFFFFFF 这个地址段是留给系统使用的,主要用于系统(linux 内核)和进程通信和交换数据,   用户能够使用3GB的空间从(0x00000000-0xBFFFFFFF).

事实上计算机的内存是没有那么大的,比方我们实际使用的计算机仅仅有2G,曾经更小,仅仅有几百M,并且一台计算机上不仅仅执行一个进程,一个占用4G,假设有10个进程,那就得着用40G了,哪有那么打的内存呢?事实上这个不要紧,由于操作系统分配给用户的是虚拟内存,程序要能够使用3个G的内存。至于操作系统如何把虚拟内存转化成物理内存,对于开发应用程序的project师来说,是不须要了解的。我们直接使用虚拟内存就能够了,而不用操心其他进程会侵犯到你的内存空间。

进程的创建和执行进程的创建和执行:

大致经历了下面步骤

1.用户请求执行程序时,操作系统会读取存储在磁盘上的可执行文件,在linux系统上这个文件就是我们的elf格式文件,为用户分配4G的虚拟内存空间,

2. 依据文件的信息指示,把不同的文件内容放到为你分配的这3G虚拟内存

3. 然后依据文件的指示,系统设置设置代码段和数据段寄存器

4.然后依据文件的指示,    跳转到用户的代码的入口地址(一般就是我们的main函数)

5.从main開始,计算机就一条一条的运行我们给的指令,处理我们的数据了,直到我们程序结束。尽管在这个过程中,系统会多次切换到其它进程,但对用户程序来说没有影响,我们能够觉得计算机仅仅为我们服务。

通过以上我们多次看到计算机是依据文件指示这种语言,所以学习elf 首先要理解elf指示了那些信息。

二、可运行的elf文件。

elf文件分三种类型: 1、目标文件(一般是.o); 2、可执行文件(我们的执行文件)   3、动态库(.so)

我们先讲一下可运行文件。

可运行文件一般分成4个部分,能扩展,我们理解这4部分就够了。

1、elf文件头 ,这个文件是对elf文件总体信息的描写叙述,在32位系统下是56的字节,在64位系统下是64个字节。

对于可运行文件来说,文件头包括的一下信息与进程启动相关

e_entry      程序入口地址

e_phoff      segment偏移

e_phnum   segment数量

2.   segment表, 这个表是载入指示器,操作系统(确切的说是载入器,有些elf文件,比方操作系统内核,是由其它程序载入的),该表的结构很重要。

typedef struct

{

Elf64_Word    p_type;            /* Segment type */

Elf64_Word    p_flags;        /* Segment flags */  /*segment权限,6表示可读写,5表示可读可运行

Elf64_Off    p_offset;        /* Segment file offset */     /*段在文件里的偏移*/

Elf64_Addr    p_vaddr;        /* Segment virtual address */   /*虚拟内存地址,这个表示内存中的

Elf64_Addr    p_paddr;        /* Segment physical address  /*物理内存地址,相应用程序来说,这个字段无用*/

Elf64_Xword    p_filesz;        /* Segment size in file */        /*段在文件里的长度*/

Elf64_Xword    p_memsz;        /* Segment size in memory */       /在内存中的长度,一般和p_filesz的值一样*/

Elf64_Xword    p_align;        /* Segment alignment */                  /* 段对齐*/

} Elf64_Phdr;

3.   elf的主题,对于可运行文件来说,最基本的就是数据段和代码段

4.   section表,对可运行文件来说,没实用,在链接的时候实用,是对代码段数据段在链接是的一种描写叙述。

整个elf文件的组成能够使用下图来描写叙述

该图片使用的是Linux C编程作者 宋劲斌的图片

上图program header table 实际上就是我们说的segment table.   segments 是从执行的角度来描写叙述elf文件, sections是从链接的角度来描写叙述elf文件的。

本节我们仅仅将elf文件的运行,所以我们仅仅讲segment相关的内容。

我们将通过一个样例来解说系统载入elf的过程(64位平台)。

我们编写一个简单的汇编程序

.section .data

.global data_item

data_item:

.long 3,67,28

.section .text

.global _start

_start:

mov $1,%eax

mov $4,%ebx

int $0x80

编译链接后生成hello文件,我们分析hello文件.

运行:readelf -h ../asm/hello   (readelf -h 是读取elf文件头的命令)

ELF Header:

Magic:   7f 45 4c 46 02 01 01 00 00 00 00 00 00 00 00 00

Class:                             ELF64

Data:                              2‘s complement, little endian

Version:                           1 (current)

OS/ABI:                            UNIX - System V

ABI Version:                       0

Type:                              EXEC (Executable file)

Machine:                           Advanced Micro Devices X86-64

Version:                           0x1

Entry point address:               0x4000b0                                       //程序的入口地址是0x4000b0

Start of program headers:          64 (bytes into file)                    //segment表在文件64字节偏移处

Start of section headers:          240 (bytes into file)

Flags:                             0x0

Size of this header:               64 (bytes)

Size of program headers:           56 (bytes)                                 //segment头项的长度是56字节(32系统是32字节)

Number of program headers:         2

Size of section headers:           64 (bytes)

Number of section headers:         6

Section header string table index: 3

对于程序的装载,我们关心这三项:

Entry point address:               0x4000b0                                       //程序的入口地址是0x4000b0

Start of program headers:          64 (bytes into file)                    //segment表在文件64字节偏移处

Size of program headers:           56 (bytes)                                 //segment头项的长度是56字节(32系统是32字节)

以上内容告诉我们segment表在文件的64字节处,我们看看64字节处有什么内容。

运行 readelf -l ../asm/hello  输出segments信息。(readelf -l 读取segments)

Program Headers:

Type           Offset             VirtAddr           PhysAddr

FileSiz            MemSiz              Flags  Align

LOAD           0x0000000000000000 0x0000000000400000 0x0000000000400000

0x00000000000000bc 0x00000000000000bc  R E    200000

LOAD           0x00000000000000bc 0x00000000006000bc 0x00000000006000bc

0x000000000000000c 0x000000000000000c  RW     200000

Section to Segment mapping:

Segment Sections...

00     .text

01     .data

我们看到程序有两个segment ,分别叫做.text 和.data

.text的Offset是0,FileSiz是0x0,MemSiz是0xbc, VirtAddr是0x400000,Flags是R E,表示载入起将把elf文件里从0字节開始直到oxbc处的内容载入到虚拟内存中的0x400000处,占用0xbc长度的内存。设置该内存的权限是RE(可读,可运行),这一段的内容正好是elf头,segments table,和代码段。

在看看elfheader 的e_entry  的地址  0x4000b0,这个地址正好是代码段的起始地址。

.data的Offset是0,FileSiz是0xbc,MemSiz是0x0c, VirtAddr是0x6000bc,Flags是R W,表示载入起将把elf文件里从bc字节開始直到oxbc + 0xc处的内容载入到虚拟内存中的0x6000bc处,占用0x0c长度的内存。设置该内存的权限是RE(可读,可运行)

为什么数据段的事实上地址是0x6000bc,而不是0x6000000呢,这是由Align决定的,Align决定内存和磁盘以1M为单位进行映射,在文件里.data 和.text处于一个页面中,在映射的时候,直接把整个页面都映射到了0x6000000处,所以把数据段的偏移设置成了0x60000bc,0x600000到0x6000bc的内容不使用。

有了以上内容,系统就能够依据elf文件创建进程了。

下一节,我们将讲述静态链接编译的过程。

时间: 2024-12-11 13:26:10

elf格式分析的相关文章

linux下的ELF格式分析

ELF格式文档详解 一,ELF格式综述 ELF(Executable and Linkable Format)是Linux下的一种格式标准,Linux中的ELF格式文件一共有四种: ●可重定位文件(Relocatable File):这类文件包含了代码和数据,可被用来链接成可执行文件或者共享目录文件,扩展名为.o ●可执行文件(Executable File):这类文件包含了可以直接执行的程序,一般没有扩展名 ●共享目录文件(Shared Object File):这类文件包含了代码和数据,扩展

ELF格式的重定位原理分析

前面有篇文章分析了ELF格式,也只是让我们对目标文件有了一个大概的了解,并没有说明一个十分重要的问题:重定位,今天重新看了下重定位的资料,终于弄懂了重定位的过程,下面来做一个分析. 我们将使用下面两个源代码中的文件a.c和b.c展开分析: //a.c extern int shared; int main() { int a=100; swap(&a,&shared); } //b.c int shared=1; void swap(int *a,int *b) { *a^=*b^=*a^

linux实践之ELF文件分析

linux实践之ELF文件分析 下面开始elf文件的分析. 我们首先编写一个简单的C代码. 编译链接生成可执行文件. 首先,查看scn15elf.o文件的详细信息. 以16进制形式查看scn15elf.o文件. 查看scn15elf.o中各个段和符号表的信息. 各个段的详细信息如下. 符号表的信息如下: 使用readelf命令查看各个段的详细信息: 段表信息如下: 符号表信息如下: 下面让我们开始分析文件头吧! 由于我的虚拟机是32位的,我下面就主要以32位的系统进行分析,就不比较32位机和64

Linux及安全实践四——ELF文件格式分析

Linux及安全实践四——ELF文件格式分析 一.ELF文件格式概述 1. ELF:是一种对象文件的格式,用于定义不同类型的对象文件中都放了什么东西.以及都以什么样的格式去放这些东西. 二.分析一个ELF文件 以一个最简单的helloworld程序为例 1. ELF文件头 使用工具查看ELF文件头:readelf -h obj 在/usr/include/elf.h中可以找到文件头结构定义: 大小总共为64字节,换算成十六进制为0x40.在十六进制代码中找到前0x40字节,即为文件头信息部分(阅

ELF格式文件符号表全解析及readelf命令使用方法

http://blog.csdn.net/edonlii/article/details/8779075 1. 读取ELF文件头: $ readelf -h signELF Header:  Magic:   7f 45 4c 46 02 01 01 00 00 00 00 00 00 00 00 00  Class:                                                  ELF64  Data:                            

ELF格式的组成结构

LF指的是Executable and Linkable Format.最初是由UNIX系统实验室作为应用程序二进制接口开发和发行的,后来逐渐发展成为了可执行文件的格式标准,在很多操作系统和非操作系统环境中都有非常广泛的应用.完整的ELF格式标准涉及了三个方面的内容.在这里我们只需要关心一个方面,那就是一个ELF格式可执行程序的组成结构. 一个ELF可执行文件格式如图8-1所示. 像图8-1那样,一个ELF可执行文件包含了一个描述全局信息的ELF文件头.若干个Program头.若干个Segmen

AAC 格式分析

一直在做一个语音项目,到了测试阶段,近来不是很忙,想把之前做的内容整理一下. 关于AAC音频格式基本情况,可参考维基百科http://en.wikipedia.org/wiki/Advanced_Audio_Coding AAC音频格式分析 AAC音频格式有ADIF和ADTS: ADIF:Audio Data Interchange Format 音频数据交换格式.这种格式的特征是可以确定的找到这个音频数据的开始,不需进行在音频数据流中间开始的解码,即它的解码必须在明确定义的开始处进行.故这种格

tiff和geotiff格式分析

转自goldeneyezhang原文 tiff和geotiff格式分析 1. tiff 文件的基本格式 TIFF(Tag Image File Format) 图像文件说明: TIFF 文件是由许多的标签 (tag) 组成 , 在 Adobe 的有关 tiff6.0 的说明中,将 (tag) 的解释称各种标签所对应的数值,而在文件中各个标签的实际入口称为 (field) ,暂且称为域. tiff 支持黑白.灰度.彩色的图像格式,同时还可以接受 RGB CMYK 等色彩系统,同时支持图像数据的 L

ELF格式解析库之抽象数据类型

抽象?抽谁的象? ELF是一种链接执行格式,它规定了对于一个ELF文件的基本数据类型是什么样的.可是,要解析一个ELF文件,而这个ELF文件或者是32Bits 或者是 64Bits,反正字长是未定的,怎么办?难道我们要定义两套解析的接口,以对应不同的字长的ELF文件吗?如果要这样做,不是不可以,只是那样做为接口的设计增加了太大的负担.这里我们采用"抽象"的方式,将已有的两套基础数据结构封装成一个兼容的数据结构.这样,我们设计解析接口时,可以做到尽量的简化,大大的减轻了工作量. 因此,这