函数调用过程探究-白红宇的个人博客

函数调用过程探究

发布日期：2021-10-20 09:40:06 浏览次数：2 分类：技术文章

本文共 7193 字，大约阅读时间需要 23 分钟。

原文出处：http://www.cnblogs.com/bangerlee/archive/2012/05/22/2508772.html

引言

如何定义函数、调用函数，是每个程序员学习编程的入门课。调用函数(caller)向被调函数(callee)传入参数，被调函数返回结果，看似简单的过程，其实CPU和系统内核在背后做了很多工作。下面我们通过反汇编工具，来看函数调用的底层实现。

基础知识

我们先来看几个概念，这有助于理解后面反汇编的输出结果。

栈(stack)

栈，相信大家都十分熟悉，push/pop，只允许在一端进行操作，后进先出(LIFO)，凡是学过编程的人都能列出一二三点。但就是这个最简单的数据结构，构成了计算机中程序执行的基础，用于内核中程序执行的栈具有以下特点：

每一个进程在用户态对应一个调用栈结构(call stack)

程序中每一个未完成运行的函数对应一个栈帧(stack frame)，栈帧中保存函数局部变量、传递给被调函数的参数等信息

栈底对应高地址，栈顶对应低地址，栈由内存高地址向低地址生长

一个进程的调用栈图示如下：

寄存器(register)

寄存器位于CPU内部，用于存放程序执行中用到的数据和指令，CPU从寄存器中取数据，相比从内存中取快得多。寄存器又分通用寄存器和特殊寄存器。

通用寄存器有ax/bx/cx/dx/di/si，尽管这些寄存器在大多数指令中可以任意选用，但也有一些规定某些指令只能用某个特定“通用”寄存器，例如函数返回时需将返回值mov到ax寄存器中；特殊寄存器有bp/sp/ip等，特殊寄存器均有特定用途，例如sp寄存器用于存放以上提到的栈帧的栈顶地址，除此之外，不用于存放局部变量，或其他用途。

对于有特定用途的几个寄存器，简要介绍如下：

ax(accumulator): 可用于存放函数返回值

bp(base pointer): 用于存放执行中的函数对应的栈帧的栈底地址

sp(stack poinger): 用于存放执行中的函数对应的栈帧的栈顶地址

ip(instruction pointer): 指向当前执行指令的下一条指令

不同架构的CPU，寄存器名称被添以不同前缀以指示寄存器的大小。例如对于x86架构，字母“e”用作名称前缀，指示各寄存器大小为32位；对于x86_64寄存器，字母“r”用作名称前缀，指示各寄存器大小为64位。

函数调用例子

了解了栈和寄存器的概念，下面看一个函数调用实例：

//func_call.cint bar(int c, int d){    int e = c + d;    return e;}int foo(int a, int b){    return bar(a, b);}int main(void){    foo(2, 5);    return 0;}

该程序很简单，main->foo->bar，编译得到可执行文件func_call：

# gcc -g func_call.c -o func_call

-g选项使目标文件func_call包含程序的调试信息。

反汇编分析

下面我们使用gdb对func_call进行反汇编，跟踪main->foo->bar函数调用过程。

# gdb func_call//此处省略gdb版本信息Reading symbols from /tmp/lx/func_call...done.(gdb) startTemporary breakpoint 1 at 0x400525: file func_call.c, line 14.Starting program: /tmp/lx/func_call Temporary breakpoint 1, main () at func_call.c:1414            foo(2, 5);(gdb)

start命令用于拉起被调试程序，并执行至main函数的开始位置，程序被执行之后与一个用户态的调用栈关联。

main函数

现进程跑在main函数中，我们disassemble命令显示当前函数的汇编信息：

(gdb) disassemble /rmDump of assembler code for function main:13        {0x0000000000400521 
    
     :     55                push %rbp0x0000000000400522 
     
      :     48 89 e5          mov %rsp,%rbp14               foo(2, 5);0x0000000000400525 
      
       :     be 05 00 00 00    mov $0x5,%esi0x000000000040052a 
       
        :     bf 02 00 00 00    mov $0x2,%edi0x000000000040052f 
        
         :    e8 d2 ff ff ff    callq 0x400506 
         
          15 return 0;0x0000000000400534 
          
           : b8 00 00 00 00 mov $0x0,%eax16 }0x0000000000400539 
           
            : c9 leaveq 0x000000000040053a 
            
             : c3 retqEnd of assembler dump.

disassemble命令的/m指示显示汇编指令的同时，显示相应的程序源码；/r指示显示十六进制的计算机指令(raw instruction)。

以上输出每行指示一条汇编指令，除程序源码外共有四列，各列含义为：

0x0000000000400521: 该指令对应的虚拟内存地址

<main+0>: 该指令的虚拟内存地址偏移量

55: 该指令对应的计算机指令

push %rbp: 汇编指令

一个函数被调用，首先默认要完成以下动作：

将调用函数的栈帧栈底地址入栈，即将bp寄存器的值压入调用栈中

建立新的栈帧，将被调函数的栈帧栈底地址放入bp寄存器中

以下两条指令即完成上面动作：

push %rbpmov  %rsp, %rbp

也许你会问：咦？以上disassemble的输出不是main函数的汇编指令吗，怎么输出中也有上面两条指令？难道main也是一个“被调函数”？

是的，皆因main并不是程序拉起后第一个被执行的函数，它被_start函数调用，更详细的资料参看。

一个函数调用另一个函数，需先将参数准备好。main调用foo函数，两个参数传入通用寄存器中：

mov $0x5, %esimov $0x2, %edi

对于参数传递的方式，x86和x86_64定义了不同的。相比x86_64将参数传入通用寄存器的方式，x86将参数压入调用栈中，x86下对应foo函数传参的汇编指令，有以下形式的输出：

sub $0x8, %espmov $0x5, -0x4(%ebp)mov $0x2, -0x8(%ebp)

参数的调用栈位置通过ebp保存的栈帧栈底地址索引，栈从内存高地址向低地址生长，所以索引值为负数，减少esp寄存器的值表示扩展栈帧。

万事具备，是时候将执行控制权交给foo函数了，call指令完成交接任务：

0x000000000040052f 
    
     :     e8 d2 ff ff ff    callq  0x400506

一条call指令，完成了两个任务：

将调用函数(main)中的下一条指令(这里为0x400534)入栈，被调函数返回后将取这条指令继续执行，64位rsp寄存器的值减8

修改指令指针寄存器rip的值，使其指向被调函数(foo)的执行位置，这里为0x400506

执行完start命令后，现在程序停在0x400522的位置，下面我们通过gdb的si指令，让程序执行完call指令：

(gdb) si 3foo (a=0, b=4195328) at func_call.c:88    {(gdb)

此时我们再来看rsp、rbp寄存器的值，它们保存了程序实际用到的物理内存地址：

(gdb) info registers rbp rsprbp            0x7fffffffe8e0    0x7fffffffe8e0rsp            0x7fffffffe8d8    0x7fffffffe8d8(gdb)

main函数君的执行到此就暂时告一段落了，此时func_call的调用栈情况如下：

发表评论

关于作者

喝酒易醉，品茶养心，人生如梦，品茶悟道，何以解忧？唯有杜康！

-- 愿君每日到此一游！

发表评论

最新留言

关于作者

推荐文章