Lua程序逆向之Luac字节码与反汇编

作者:非虫

在了解完了Luac字节码文件的整体结构后,让我们把目光聚焦,放到更具体的指令格式上。Luac字节码指令是整个Luac最精华、也是最具有学习意义的一部分,了解它的格式与OpCode相关的知识后,对于逆向分析Luac,会有事半功倍的效果,同时,也为自己开发一款虚拟机执行模板与引擎打下良好的理论基础。

指令格式分析

Luac指令在Lua中使用Instruction来表示,是一个32位大小的数值。在Luac.bt中,我们将其定义了为Inst结构体,回顾一下它的定义与读取函数:

定义的每一条指令为uint32,这与ARM处理器等长的32位指令一样,但不同的是,Lua 5.2使用的指令只有40条,也就是说,要为其Luac编写反汇编引擎,比起ARM指令集,在工作量上要少出很多。

Luac指令完整由:OpCode、OpMode操作模式,以及不同模式下使用的不同的操作数组成。

官方5.2版本的Lua使用的指令有四种格式,使用OpMode表示,它的定义如下:

其中,i表示6位的OpCode;A表示一个8位的数据;B表示一个9位的数据,C表示一个9位的无符号数据;后面跟的x表示数据组合,如Bx表示B与C组合成18位的无符号数据,Ax表示A与B和C共同组成26位的无符号数据。sBx前的s表示是有符号数,即sBx是一个18位的有符号数。

ABC这些字节大小与起始位置的定义如下:

从定义中可以看来,从位0开始,ABC的排列为A->C->B。

以小端序为例,完整的指令格式定义如下表所示:

OpMode B C A OpCode
iABC B(23~31) C(14~22) A(6~13) opcode(0~5)
iABx Bx (14~31) A(6~13) opcode(0~5)
iAsBx sBx (14~31) A(6~13) opcode(0~5)
iAx Ax A(6~31) opcode(0~5)

先来看最低6位的OpCode,在Lua中,它使用枚举表示,5.2版本的Lua支持40条指令,它们的定义如下所示:

OpCode定义的注释中,详细说明了每一条指令的格式、使用的参数,以及它的含义。以第一条OP_MOVE指令为例,它接受两个参数R(A)与R(B),的作用是完成一个赋值操作“R(A) := R(B)”。

从指令的格式可以看出,尽管OpCode定义的注释中描述了每条指令使用的哪种OpMode,但32位的指令格式中,并没有指出到底每个OpCode对应哪一种OpMode,Lua的解决方法是单独做了一张OpMode的表格luaP_opmodes,它的定义如下:

构成完整的OpMode列表使用了opmode宏,它的定义如下:

它将OpMode相关的数据采用一字节表示,并将其组成划分为以下几个部分:

  1. m位,占最低2位,即前面OpMode中定义的四种模式,通过它,可以确定OpCode的参数部分。

  2. c位,占2~3位,使用OpArgMask表示,说明C参数的类型。定义如下:

  3. b位,占4~5位。使用OpArgMask表示,说明B参数的类型。

  4. a位,占位6。表示是否是寄存器操作。

  5. t位,占位7。表示是否是测试操作。跳转和测试指令该位为1。

将luaP_opmodes的值使用如下代码打印出来:

输出如下:

可以看到,有很多指令的OpMode是相同的,比如有多条指令对应的值都是0x7c,如果OpMode的顺序经过修改,要想通过OpMode直接还原所有的指令,是无法做到的,需要配合其他方式来还原,比如Lua虚拟机对指令的处理部分。

反汇编引擎实现

编写反汇编引擎需要做到以下几点:

  1. 正确的识别指令的OpCode。识别该条指令对应的OpCode,了解当前指令的作用。

  2. 处理指令的参数列表。解析不同指令使用到的参数信息,与OpCode在一起可以完成指令反汇编与指令的语义转换。

  3. 指令解析。反汇编引擎应该能够支持所有的指令。

  4. 指令语义转换。完成反汇编后,加入语义转换,更加方便了解指令的意图。

  5. 处理指令依赖关系。处理语义转换时,需要处理好指令之前的关系信息。

下面,我们一条条看如何实现。

OpCode获取

首先是通过指令获取对应的OpCode,即传入一个32位的指令值,返回一个OpCode的名称。Lua中有一个GET_OPCODE宏可以通过指令返回对应的OpCode,定义如下:

这个宏在010 Editor模板语法中并不支持,因此,实现上,需要编写展开后的代码,并将其定义为函数。功能上就是取32位指令的最低6位,代码如下所示:

参数获取

取指令的参数,包括取指令的A、B、C、Bx、Ax、sBx等信息。前面已经介绍了它们在指令中的位偏移,因此,获取这些参数信息与获取OpCode一样,Lua中提供了GETARG_A、GETARG_B、GETARG_C、GETARG_Bx、GETARG_Ax、GETARG_sBx等宏来完成这些功能,定义如下:

同样的,010 Editor模板语法不支持直接定义这些宏,需要编写展开后的代码,实现如下:

指令解析

在指令解析的编写工作上,参考了luadec的反汇编引擎。它的实现主要位于luadec_disassemble()函数。这里要做的工作就是将它的所有代码与语法都进行一次010 Editor模板语法化。代码片断如下:

上面的代码中,通过GET_OPCODE获取OpCode后,分别对它进行判断与处理,参数信息在函数的最开始获取,方便指令中使用。pc表示当前执行的指令所在位置,方便代码中做语义转换与依赖处理。代码中这一行需要注意:

因为处理指令时,需要读取指令所在Proto的常量信息,但010 Editor尴尬的模板语法不支持传递指针,也不支持引用类型作为函数的返回值,这导致无法直接读到到Proto的Constants信息。幸好新版本的010 Editor的模板语法加入了self与parentof关键字,用于获取当前结构体与父结构体的字段信息,因此,这里需要对Proto结构体进行修改,让Code结构体成为它的内联的子结构体,如下所示:

然后在代码中,通过parentof(parentof(inst)就能够返回一个Proto的引用类型,然后就可以愉快的读Proto中所有的字段数据了。

指令语义转换

所谓语义转换,就是将直接的指令格式表示成可以读懂的指令反汇编语句。如指令0x0000C1,反汇编后,它的指令表示为“LOADK R3 K0”,LOADK为OpCode的助记符,这里取助记符时,直接通过010 Editor模板函数EnumToString(),传入OpCode名,然后去掉前面的OP_就可以获得。使用get_opcode_str()实现该功能,代码如下:

R3表示寄存器,K0表示常量1,即当前函数的Constants中索引为0的Constant。这一条指令经过语义转换后就变成了“R3 := xxx”,这个xxx是常量的值,需要通过DecompileConstant()获取它具体的值。

在进行语义转换时,将处理后的指令信息保存到line字符串中,将语义字符串转换到lend字符串中,处理完后输出时加在一起,中间放一个分号。如下所示是指令处理后的输出效果:

指令依赖处理

指令依赖是什么意思呢?即一条指令想要完整的了解它的语义,需要依赖它前面或后面的指令,就解析该指令时,需要用到指令前面或后面的数据。

拿OP_LE指令来说,它的注释部分如下:

娄条件满足时,跳转去执行,否则pc向下,在编写反汇编引擎时,使用的代码片断如下:

dest是要跳转的目标地址,GETARG_sBx()返回的是一个有符号的跳转偏移,因为指令是可以向前与向后进行跳转的,RK宏判断参数是寄存器还是常量,然后返回它的值,这里的实现如下:

最终,OP_LE指令处理后输出如下:

其他所有的指令的处理可以参看luadec_disassemble()的代码,这里不再展开。

最后,所有的代码编写完成后,效果如图所示: 

luac_dis.jpg

luac.bt的完整实现可以在这里找到:https://github.com/feicong/lua_re

原文:https://github.com/feicong/lua_re/blob/master/lua/lua_re2.md


发表评论

(必填)

(必填)

(以便回访)