一. 加入调试信息

    gcc -g *.c

    gcc -rdynamic: 

二. 启动 gdb

1. 启动新进程

    gdb a.out

    run 参数1 参数2

2. 调试已有进程

    gdb -p 进程号

3. 调试 core

    gdb a.out --core=corefile

三. 断点

    break 行号/函数名/文件名:行号

    break +offset

    break -offset      在当前行号的前面或后面的 offset 行停住

    info b                 查看已经设置的断点

    continue            运行到下一个断点

    delete [breakpoints] [range]       删除指定的断点,如果不指定 breakpoints,则删除所有

    disable [breakpoints] [range]      停止指定的断点,并不删除

    clear                  清除所有已定义的断点

    clear func          清除所有设置在函数上的断点

四. 断点保存

    编辑文件例如 break 并输入中断点:

    break main
    保存后, gdb 可执行文件 -x break 即可自动设置断点

五. 条件断点

    b 行号/文件名:行号 if 表达式        if 后无需括号

    condition 断点号 expression         修改表达式

    condition 断点号                           删除表达式

六. 跟踪

    la(layout)         显示源码

    print 变量

    p/x 变量            以十六进制查看

    print var=1       除了显示变量的值之外,还可以用于为变量赋值

    set variable var=1    另外一种为变量赋值的方法

    next                  执行下一行语句,如果是函数,不进入

    step                  执行下一行语句,如果是函数,进入

    continue           从下一个断点处继续运行

    finish                 执行到当前函数结束,返回到调用它的函数中

    until                   无参:执行完循环的剩余部分,直到到达当前循环体外的下一行代码

    until [filename:]linenumber

    until [filename:]function        以上 2 种用法,在到达指定的行号或者函数时停止

    set print element xxx    设置显示的字符长度,默认为 512,在字符串过长时无法显示全部,设置为 0 表示全部显示

    x/FMT address  Examine memory。

FMT->n/f/un: repeat countf: o(octal), x(hex), d(decimal), u(unsigned decimal),t(binary), f(float), a(address), i(instruction), c(char) and s(string)u: b(byte), h(halfword), w(word), g(giant, 8 bytes)

七. 查看信息

    info threads

    info breakpoints

    info locals            显示局部变量

    info args              显示函数参数

    info registers       显示寄存器数据

    info variables       显示全局和静态变量

    info functions       显示所有的函数名称

    info program        显示被调试程序的执行状态

    info files               显示被调试文件的详细信息

    info stack             显示栈信息

    info frame            显示更详细的栈信息

    whatis                  显示变量的类型

    ptype                   显示结构体的定义

八. 调试线程

    info threads    显示当前可调试的所有线程

    break thread_test.c:123 thread all    在所有线程中相应的行上设置断点

    thread apply ID1 ID2 command         让一个或者多个线程执行GDB命令command。

    thread apply all command                 让所有被调试线程执行GDB命令command。

    set scheduler-locking off|on|step       实际使用过多线程调试的人都可以发现,在使用 step 或者 continue 命令调试当前被调试线程的时候,其他线程也是同时执行的,怎么只让被调试程序执行呢?通过这个命令就可以实现这个需求。off 不锁定任何线程,也就是所有线程都执行,这是默认值。 on 只有当前被调试程序会执行。 step 在单步的时候,除了 next 过一个函数的情况(熟悉情况的人可能知道,这其实是一个设置断点然后 continue 的行为)以外,只有当前线程会执行。

    non-stop mode:For some multi-threaded targets, gdb supports an optional mode of operation in which you can examine stopped program threads in the debugger while other threads continue to execute freely. This minimizes intrusion when debugging live systems, such as programs where some threads have real-time constraints or must continue to respond to external events. This is referred to as non-stop mode.

启动命令参考:gdb -iex "set target-async on" -iex "set pagination off" -iex "set non-stop on" ...

参考:

九. 主动生成 core

    程序运行时,2 种方法生成 core 文件:

1. gcore [-o filename] pid  

    该命令不影响程序的运行。

2. sudo kill -s SIGABRT pid

    发送 SIGABRT 信号给当前进程,该方法会终止当前进程的运行。

十. GDB 进阶

    以下内容摘自某大牛的分享。

    我们在用 GBD 的 bt 命令来查看某个线程的栈回溯的时候,每个 frame 的前面都会有一个数字如下图所示:

    这个数字其实是个指令地址值,它是当在某个函数 f() 的内部要调用某个函数 g() 的时候,那个 g() 函数调用返回后要执行的那条指令的地址。好像有点绕,举个简单列子说明一下:

    显然运行此函数会 core,我们用 gdb 分析这个 core 的时候,显示如下:

    所以在 bt 结果显示的 f() 函数对应的 frame 的那个地址值就是 g() 函数返回以后开始执行的那一条指令。那么这个地址是在什么时候放到栈里面的呢? 就是在执行 “callq 0x400698 <g(int, int)>” 这条指令时候,它会首先将下面的那条 “mov   %eax,-0x4(%rbp)” 指令的地址 “0x0000000000400747” 压入到当前栈顶,然后跳转去执行 g() 函数的机器指令。所以,执行完 callq 那条指令后栈的布局为:

    理解了在调用一个函数的时候会将这个函数调用的后面一条指令压入到栈中,以及这个返回地址的存储位置在栈中相对于被函数调用对应的 frame 的位置关系是成功手动分析栈的第一步,也是最重要的一步,这个我们在后面会看到。显然此步不难理解。下面看看第二个重要的知识点:理解函数调用的参数传递方式和看汇编理解函数内部对于参数的处理。

    我们知道 AMD64 架构下 CPU 的通用寄存器翻了一倍,从原来的 8 个变成了16 个。除了原来的 8 个寄存器从原来的 exx 扩充成 64 位的 rxx,新增加的 8 个为:r8~r15。寄存器多了以后,函数调用参数传递的方式就不像以前 x86 下面通过栈来保存了(当然原来也有 fastcall 的调用方式约定),为了更快, GCC x64 下函数调用参数传递的约定为:

    前6个参数依次存放在寄存器:%rdi, %rsi, %rdx, %rcx, %r8, %r9中.

    多余的参数才依次保存在栈上。

    这个知识点很重要,因为通过它再结合被调用函数汇编代码我们就能知道每个参数被保存在何处了(在较少数的情况下,函数的参数在被调用函数中是没有被保存就被直接使用了,大家可以思考这是在什么情形下?),从而我们就有可能在栈上搜索找到它们了。

    对于寄存器的使用,还有几个重要的约定:

    Caller’s registers: %rbx, %rbp, %r12, %r13, %r14, %r15

    Callee’s registers: %rdi, %rsi, %rdx, %rcx, %r8, %r9

    Others:

        %rsp: stack pointer

        %rax: return value

        %rip: next instruction to execute

    怎么理解寄存器是 Caller 的还是 Callee 的呢?其实这是一种很严格对于寄存器使用的约定。是 Caller 的寄存器就意味着被调用函数(Callee)不能随使用这些寄存器,如果一定要使用,可以,但是从被调用函数返回的时候这些寄存器中的内容必须是和调用前一模一样的。在实现上如果被调用函数要使用这些寄存器则必须在函数执行开始的地方将这些寄存器中的内容先保存到栈中,等到函数返回的时候再把一开始保留的值再存回去,这就是 “Caller’s register” 的意思:Callee 你可以用,但要帮我恢复成原来的值让我感知不道它们的变化。

    是 Callee 的寄存器的意思是被调用函数可以随意使用他们,不必考虑改变他们对于调用者的影响。

    理解以上两点也是非常重要的,有时候通过它们可以找到我们要找的某个变量的值。举个例子,假如一个参数被保存到了 %rbx 中,但是它没有被存在本 frame 对应的栈空间中,此时我们用 bt 回溯会看到这个参数被 optimized out 了。但是是不是我们就一定没有机会找到这个变量的值了呢?其实不然,假如被调用函数中要使用 %rbx,那么它就会把 %rbx 的值先保持在栈中,然后通过后面讲的栈搜索,我们就可以在被调用函数栈的 frame 中定位到这个变量了。

    下面就是手动搜索栈了。我们用的 GDB 的命令为:

    (gdb) x/1000ag $rsp

    怎么理解这个命令呢? 这个命令的意思是:从寄存器 %rsp 中的地址开始,以每 8 个字节对应的数值当做一个地址值来尝试寻找器对应符号,然后执行 1000 次。其实这一步就是搜索我们 bt 命令显示的每个 frame 前面的对应的函数返回地址,然后定位到我们想要分析的 frame。再然后,我们就可以利用我们第二步所讲的函数参数使用分析方法来定位我们想要找的参数和变量了。

    没有什么比一个有代表性的例子更能说明问题了。下面要介绍的一个例子是我们线上引擎出现的一个 coredump 分析过程。这个 core 是挂在我们二方库的一个算法模块中,同时此模块没有详细的调试符号。如下图所示: