C编译器剖析_6.3.4 汇编代码生成_为函数调用与返回产生汇编代码

6.3.4 为函数调用与返回产生汇编代码

在这一小节中，我们来讨论一下如何为函数调用和函数返回生成汇编代码。函数调用对应的中间指令如下所示：

//中间指令的四元式： < opcode, DST, SRC1, SRC2>

<CALL, 用于接收返回值的变量retVal, 函数名func, 参数列表[arg1,arg2, …,argn]>

让我们先熟悉一下C函数的调用约定CallingConvention，我们需要把参数从右向左入栈（即从argn到arg1依次入栈），不妨记这些参数所占用的总内存为stksize字节。当函数调用返回后，主调函数要负责把这些参数出栈，这可通过形如“addl stksize, %esp”的汇编指令来实现。{eax, ecx, edx}这3个寄存器要由主调函数负责保存，在产生call汇编指令之前，要对这几个寄存器进行必要的回写操作。而{ebx,esi,edi}这3个寄存器则由被调函数负责保存，UCC编译器会在所有函数的入口处保存这几个寄存器。
为了加快返回值的传递，我们会尽量把返回值放在寄存器中。在x86平台上，按C标准的约定：

(1) 若返回值为整型，则存于eax寄存器中(我们只考虑32位平台)；

(2) 若返回值为浮点型，则存于x87栈顶寄存器中；

(3) 按C的语法要求，返回值不可以是数组类型。如果返回值是1、2或4字节的结构体对象，则存于寄存器eax中，若是8字节，则存于[edx: eax]中。若返回值是其他大小的结构体对象，则C编译器会为函数添加结构体指针作为第1个参数，如下所示。

typedef struct Data{

int num[8]; //共32字节

} dt;

dt = GetData();

//经C编译器处理后，真正执行的函数调用为：

GetData(&dt);

因此，我们可按以下步骤来翻译形如“<CALL, retVal, func, [arg1,arg2, … ,argn]>”的中间指令，对应的C函数调用相当于“retVal =func(arg1, …, argn);”。

(1) 参数从右至左，即从argn到arg1依次入栈;

(2) 对{eax,ecx,edx}这几个寄存器进行必要的回写操作；

(3) 当retVal为结构体对象，且大小不为{1,2,4,8}时，我们要取retVal的地址，并把该地址入栈；

(4) 若func为函数名myadd，则产生形如“call myadd”的汇编指令；如果func为函数指针fptr，则产生形如“call * fptr”的汇编指令。

(5) 根据入栈参数所占的内存总和，调整寄存器esp，即生成形如“addl stksize，esp”的汇编指令，其中stksize代表所有参数总共占用的栈内存大小。

(6) 根据返回值的类型从相应寄存器中获取返回值。对于大小不为{1，2，4，8}的结构体对象，不需要由主调函数来取返回值。由于已把形如“dt = GetData();”的函数调用改为“GetData(&dt)”，在被调函数内部，我们可通过指针对结构体对象dt进行赋值。

例如，对于C程序中的函数调用myadd而言，UCC编译器生成的汇编代码如下所示：

int myadd(int a,int b)；

result = myadd(num1,num2);

///////////////对应汇编代码////////////

pushl num2            //参数num2入栈

pushl num1            //参数num1入栈

call myadd             //函数调用

addl $8, %esp        //所有参数出栈

movl %eax, result //取返回值

在此基础上，我们来看一下用于生成这些汇编代码的函数EmitCall，如图6.3.9所示。

第7至12行把参数从右到左依次入栈，第13至15行调用SpillReg函数对寄存器eax、ecx和edx进行必要的回写。当返回值是大小不为{1，2，4，8}的结构体对象时，我们会在第19行取“返回值接收对象retVal”的地址，然后在第20行将该地址入栈。第23行用于产生函数调用指令，形如“call myadd”或者“call * fptr”，第25至28行会把所有参数出栈。

图6.3.9 EmitCall()

当返回值为浮点数时，如果主调函数不需要该返回值，我们要在第31行把x87栈顶寄

存器弹出，以避免x87协处理器的寄存器栈过满。如果主调函数需要浮点数返回值，则通过第35至39行从x87栈顶寄存器中取出返回值，并弹出x87栈顶寄存器。而第40至55行则用于从寄存器eax或edx中获取“整数返回值”或者“大小为{1，2，4，8}的结构体返回值”。

接下来，我们来分析一下图6.3.9第9行调用的函数PushArgument，其代码如图6.3.10第1至24行所示。第3至5行压入float类型的参数，而第6至8行压入double类型的参数，第9至20行用于把结构体对象复制到栈中，第17行的opds[1]记录要复制的字节数ty->size，第18行的opds[2]是在栈中为结构体对象预留的内存大小，opds[2]要大于或等于opds[1]的大小。第21至22行把4字节的整数入栈。

图6.3.10 PushArgument()

在图6.3.10第26行，我们还给出了形如“*ptr = number;”的中间指令，UCC称这样的指令为IndirectMove，我们会在第35行把ptr加载到寄存器中，不妨设其为eax，然后在36至37行把形如“<IMOV,ptr,number,NULL>”的中间指令改为“<MOV,(%eax),number,NULL>”，再通过第19行的EmitMove函数，我们就可以为“*ptr
= number;”产生以下汇编代码，我们已在前面的章节中分析过EmitMove函数，这里不再重复。

movl num, %ecx

movl %ecx, (%eax)

与此类似的，图6.3.10第48至58行的EmitDeref函数用来处理形如“t2: *ptr”的中间指令，对应的四元式为<DEREF,t2, ptr, NULL>，我们先在第51行把ptr加载到寄存器中，不妨设其为eax，第52至53行会把中间指令“<DEREF, t2, ptr, NULL>”改为“<MOV，t2，(%eax)，NULL>”，之后通过第55行的EmitMove函数产生以下汇编代码：

movl (%eax), %ecx ； //临时变量t2对应的寄存器为ecx

当遇到C程序里的return语句时，UCC编译器会产生以下中间代码：

return retVal;

/////////对应中间代码////////////

<RET, retVal, NULL,NULL> //中间指令RET只是准备好返回值

<JMP, exitBB,NULL,NULL> //跳往函数的唯一出口exitBB

在函数的唯一出口exitBB中，UCC编译器会通过EmitEpilogue函数产生以下汇编代码，用于从被调函数返回到主调函数。

exitBB:

movl %ebp, %esp

popl %edi

popl %esi

popl %ebx

popl %ebp

ret

因此，中间指令“<RET, retVal, NULL,NULL>”所要完成的工作只是传递返回值，相关代码如图6.3.11所示。当返回值为浮点数且返回值不在x87栈顶寄存器时，我们在第9行调用PutASMCode函数把返回值加载到x87栈顶寄存器中。如果返回值是大小不为{1，2，4，8}的结构体对象，我们通过第31至33行，把形如“<RET，retVal，NULL，NULL>”的中间指令改为“<IMOV,&dt,retVal,
NULL>”，第16至28行的注释对此进行了说明，之后我们可在第34行调用EmitIndirectMove函数进行结构体对象的复制。

图6.3.11 EmitReturn()

图6.3.11第37至55行用于把“整数返回值或者大小为{1，2，4，8}的结构体对象”传送到“寄存器eax或者edx”中。

时间： 2024-10-13 17:40:30

C编译器剖析_6.3.4 汇编代码生成_为函数调用与返回产生汇编代码

C编译器剖析_6.3.4 汇编代码生成_为函数调用与返回产生汇编代码的相关文章

C编译器剖析_6.3.3 汇编代码生成_为跳转指令产生汇编代码

C编译器剖析_6.3.1 汇编代码生成_由中间指令产生汇编代码的主要流程

C编译器剖析_6.3.5 汇编代码生成_为类型转换产生汇编代码

C编译器剖析_6.1 汇编代码生成_简介

C编译器剖析_6.2 汇编代码生成_寄存器的管理

C编译器剖析_6.3.6 汇编代码生成_为“取地址”产生汇编指令

C编译器剖析_6.3.2 汇编代码生成_由EmitAssign函数产生算术运算的汇编代码

C编译器剖析_5.2.2 中间代码生成及优化_再论符号symbol与公共子表达式

C编译器剖析_5.2.4 中间代码生成及优化_后缀表达式的翻译