Mach-O在内存中符号表地址、字符串表地址的计算

KSCrash 是一个用于 iOS 平台的崩溃捕捉框架,最近读了其部分源码,在 KSDynamicLinker 文件中有一个函数,代码如下:

/** Get the segment base address of the specified image.
 *
 * This is required for any symtab command offsets.
 *
 * @param idx The image index.
 * @return The image's base address, or 0 if none was found.
 */
static uintptr_t segmentBaseOfImageIndex(const uint32_t idx)
{
    const struct mach_header* header = _dyld_get_image_header(idx);

    // Look for a segment command and return the file image address.
    uintptr_t cmdPtr = firstCmdAfterHeader(header);
    if(cmdPtr == 0)
    {
        return 0;
    }
    for(uint32_t i = 0;i < header->ncmds; i++)
    {
        const struct load_command* loadCmd = (struct load_command*)cmdPtr;
        if(loadCmd->cmd == LC_SEGMENT)
        {
            const struct segment_command* segmentCmd = (struct segment_command*)cmdPtr;
            if(strcmp(segmentCmd->segname, SEG_LINKEDIT) == 0)
            {
                return segmentCmd->vmaddr - segmentCmd->fileoff;
            }
        }
        else if(loadCmd->cmd == LC_SEGMENT_64)
        {
            const struct segment_command_64* segmentCmd = (struct segment_command_64*)cmdPtr;
            if(strcmp(segmentCmd->segname, SEG_LINKEDIT) == 0)
            {
                return (uintptr_t)(segmentCmd->vmaddr - segmentCmd->fileoff);
            }
        }
        cmdPtr += loadCmd->cmdsize;
    }

    return 0;
}

该函数被如此调用:

const uintptr_t segmentBase = segmentBaseOfImageIndex(idx) + imageVMAddrSlide;

0 迷惑现场

一个 image 中会有多个 segment,参数 idx 传递的是 image 的索引,如果返回的是 segment base, 那么是哪个 segment?

有人会说,注释里不是说返回非 0 的话,就表示的是 image base。可是从原理上讲 vmaddr - fileoff 根本得不到 image base(后文有解释)。

而在被调用处,加上由 ASLR 引起的偏移,赋值给了 segmentBase。

fishhook 中,有这么一行代码:

uintptr_t linkedit_base = (uintptr_t)slide + linkedit_segment->vmaddr - linkedit_segment->fileoff;

暂不考虑由 ASLR 造成的 slide,那么又是上边提到的 vmaddr - fileoff,这里的变量命名是 linkedit_base

KSCrash 中的所谓的 segmentBase 和 fishhook 中所谓的 linkedit_base,到底指的是什么?如果指的是 __LINKEDIT 端在内存中的真实地址那应该是 vmaddr + ASLR偏移 才对。

在查找资料的过程中,读了大量的博客、资料,对于这一块的解释,要么没提,要么一带而过,要么是错的。有的认为这个值是__LINKEDIT 段在内存中的基址,有的认为是当前 image 在内存中的基址。

1 揭开面纱

1.1 前置知识

在理解这个值到底是什么之前,我们需要一些前置知识。

  • Mach-O 文件的结构
  • 虚拟内存
  • ASLR

下边我们简单的说一下 Mach-O 文件。

Mach-O

我们知道,进程是可执行文件在内存中加载得到的结果,而 Mach-O 就是一种 macOS 平台的可执行文件格式。

Mach-O 文件分为三个区域 Header、Load commands、Data。其中 Load commands 区的指令指导如何设置并加载二进制数据。下边列出 32 位平台下我们关心的几个:

指令 对应的数据结构 描述
LC_SEGMENT segment_command 定义了这个文件中的一个 segment,在 Mach-O 文件被加载到时,这个 segment 会被映射到对应的地址空间。需要留意,segment_command 中有一个 segname,可通过 segname 来查找指定的 segment。
LC_SYMTAB symtab_command 指定了这个文件的符号表。symtab_command 中包含符号表在文件中的偏移、符号数量、字符串表在文件中的偏移、字符串表的大小。

segment_command 代码如下:

struct segment_command { /* for 32-bit architectures */
    uint32_t    cmd;        /* LC_SEGMENT */
    uint32_t    cmdsize;    /* includes sizeof section structs */
    char        segname[16];    /* segment name */
    uint32_t    vmaddr;     /* memory address of this segment */
    uint32_t    vmsize;     /* memory size of this segment */
    uint32_t    fileoff;    /* file offset of this segment */
    uint32_t    filesize;   /* amount to map from the file */
    vm_prot_t   maxprot;    /* maximum VM protection */
    vm_prot_t   initprot;   /* initial VM protection */
    uint32_t    nsects;     /* number of sections in segment */
    uint32_t    flags;      /* flags */
};

对于每一个 segment 而言,设置进程虚拟内存的过程就是将相应的内容加载到内存中,也就是从 Mach-O 文件的 fileoff 初加载 filesize 字节到虚拟内存地址的 vmaddr 处,占用 vmsize 字节。**需要留意,对某些 segment 来说,vmsize 可能会大于 filesize,如__Data、__LINKEDIT。**

在后边的讨论中,我们需要关心的是 segname__LINKEDIT 的段。__LINKEDIT 段由 dyld 使用,包含符号表、字符串表以及其他数据。

symtab_command 代码如下:

struct symtab_command {
    uint32_t    cmd;        /* LC_SYMTAB */
    uint32_t    cmdsize;    /* sizeof(struct symtab_command) */
    uint32_t    symoff;     /* symbol table offset */
    uint32_t    nsyms;      /* number of symbol table entries */
    uint32_t    stroff;     /* string table offset */
    uint32_t    strsize;    /* string table size in bytes */
};

symtab_command 中,symoff 为符号表在 Mach-O 文件中的偏移、stroff 为字符串表在 Mach-O 文件中的偏移。

1.2 揭秘

我们可以使用 MachOView 来打开一个 Mach-O 文件,观察 LC_SEGMENT(__LINKEDIT)、LC_SYMTAB。限于篇幅,这里就不截图观察了。但是你应当留意到符号表、字符串表在 Mach-O 文件的位置,位于 __LINKEDIT 段中,这也验证了上边对 __LINKEDIT 段的介绍。

我们从符号表在虚拟内存中的地址来倒推上边那个所谓的 segmentBaselinkedit_base,看一张图(不是很准确,但可以帮助我们搞明白这个问题)。

我们先忽略 ASLR,图中的深灰色背景表示是虚拟内存,__TEXT 段、__DATA 段我们不关心,图中没有体现。

sym_vmaddr 是指的是符号表在虚拟内存中地址,而在虚拟内存中符号表在 __LINKEDIT 段中偏移,即 sym_vmaddr - vmaddr,与其在 MachO 文件中的偏移,即 symoff - fileoff 相等。

也就是sym_vmaddr - vmaddr = symoff - fileoff
vmaddr 移到右边,即 sym_vmaddr = symoff - fileoff + vmaddr

发现什么了吗?

接着上边推:
减去符号表偏移symoff:sym_vmaddr - symoff = vmaddr - fileoff(式1),
式 1 等号右边的部分加上 ASLR 偏移 slide:vmaddr - fileoff + slide,也就是所谓的 segmentBaselinkedit_base

至此,真相大白。

参考

  • 深入解析Mac OS X & iOS操作系统
  • 深入理解计算机系统
  • Mach-O File Format

原文地址:https://www.cnblogs.com/xjshi/p/11595234.html

时间: 2024-11-01 06:03:02

Mach-O在内存中符号表地址、字符串表地址的计算的相关文章

变量在内存中的存储方式-----“大端”和“小端”

"大端"和"小端"可以追溯到1726年的Jonathan Swift的<格列佛游记>,其中一篇讲到有两个国家因为吃鸡蛋究竟是先打破较大的一端还是先打破较小的一端而争执不休,甚至爆发了战争.1981年10月,Danny Cohen的文章<论圣战以及对和平的祈祷>(On holy wars and a plea for peace)将这一对词语引入了计算机界(<程序设计实践>第9章).这么看来,所谓大端和小端,也就是big-endia

线程暂停的方法、基本数据类型包装类、十进制单精度浮点数(32位)存入内存中、TreeSet和TreeMap

使线程暂停执行的方法? 1.Thread类的sleep()方法使线程进入阻塞状态,睡眠指定的时间段. 2.Object类的wait()方法使线程放弃对象锁,进入等锁池,直到获得对象锁后才继续往下执行 3.Thread类的yield()方法平时比较少用,使线程进入就绪状态而不是阻塞状态,也就是说下一个执行的线程可能还是这个线程,当然也可能让给了其他的线程,那么这个线程就暂停了. 4.Java5后的使用Lock接口也可以实现类似于对象锁的功能,优点是比较灵活.可以知道线程获得锁了没有等,比较大的缺点

C/C++数据在内存中的存储方式

目录 1 内存地址 2 内存空间 ??在学习C/C++编程语言时,免不了和内存打交道,在计算机中,我们存储有电影,文档,音乐等数据,这些数据在内存中是以什么形式存储的呢?下面做一下简单介绍. 本文是学习VIPler的博文关于内存地址和内存空间的理解之后整理的,感谢VIPler提供学习资源. 1 内存地址 ??我们经常在书上或者网络上看到4位和8位的内存地址表示方法,比如0x0001或者0x00000001,为什么会有这两种区别呢? ??其实,这两种表示方法都是表示的编号为1的内存地址,都只是一个

线性表之顺序表(C语言实现)

线性表是从数据元素的逻辑结构上定义的. 这种数据元素的逻辑结构的特征如下: 1.除开第一个和最后一个元素之外.所有元素都有一个前驱元素和后继元素. 2.第一个元素无前驱元素,但有后继元素. 3.最后一个元素有前驱元素,单无后继元素. 可以抽象为如下表述: 元素1 元素2 元素3 元素4 元素5 元素6 然而同一种逻辑结构在内存中却可以有两种存储方式:1.在内存中连续存储的线性表-----顺序表(如数组)                  2.在内存中离散存储的线性表-----链表(如单链表,双链

Node.js之判断字符串中是否包含某个字符串

server.txt内容如下: 阿里云服务器 关于应用场景,就不多说了,字符串是不论是后端开发还是前端开发等,都是要经常打交道了. test.js(node.js代码,只要被本地装了node.js环境,直接可通过node test.js运行看效果): var fs = require("fs"); var result = fs.readFileSync("./server.txt"); console.log("result:"+result)

未解决符号表,导出符号表和地址重定向表

让我们总结一下:编译器把一个cpp编译为目标文件的时候,除了要在目标文件里写入cpp里包含的数据和代码,还要至少提供3个表:未解决符号表,导出符号表和地址重定向表.     未解决符号表提供了所有在该编译单元里引用但是定义并不在本编译单元里的符号及其出现的地址.     导出符号表提供了本编译单元具有定义,并且愿意提供给其他编译单元使用的符号及其地址.     地址重定向表提供了本编译单元所有对自身地址的引用的记录.     链接器进行链接的时候,首先决定各个目标文件在最终可执行文件里的位置.然

oracle中如何将表缓存到内存中

oracle快速将表缓存到内存中,使得访问速度加快. 共有2种方法: 1)alter table fisher cache; 2)alter table fisher storage(buffer_pool keep); --取消缓存 1)alter table fisher nocache; 2)alter table fisher storage(buffer_pool default); select table_name,OWNER,cache,buffer_pool from dba_

InMemory:在内存中创建临时表和表变量

在Disk-Base数据库中,如果系统频繁地创建和更新临时表,大量的IO操作集中在tempdb中,tempdb很可能成为系统性能的瓶颈.在SQL Server 2016的内存(Memory-Optimized)数据库中,如果考虑使用内存优化结构来存储临时表,表变量,表值参数的数据,那么将完全消除IO操作的负载消耗,发挥大内存的优势,大幅提高数据库的性能. 在SQL Server 2016中,能够直接创建内存优化的表类型,表变量和表值参数的数据只存储在内存中:不能直接在内存中创建临时表,但是,SQ

DEBUG模式下, 内存中的变量地址分析

测试函数的模板实现 [cpp] view plain copy /// @file my_template.h /// @brief 测试数据类型用的模板实现 #ifndef MY_TEMPLATE_H_2016_0123_1226 #define MY_TEMPLATE_H_2016_0123_1226 template<int iArySize> void fnTestDataType() { char szBuf[iArySize] = {'\0'}; unsigned short wT