一段Dalvik汇编代码由一系列Dalvik指令组成,指令语法由指令的位描述与指令格式 标识来决定。位描述约定如下:
每16位的字采用空格分隔开来
每个字母表示四位,每个字母按顺序从高字节开始,排列到低字节。每四位之间可 能使用竖线“丨”来表示不同的内容
顺序采用A?Z的单个大写字母作为一个4位的操作码,op表示一个8位的操作码
¢来表示这字段所有位为0值
以指令格式“A|G|op BBBB F|E|D|C”为例:
指令中间有两个空格,每个分开的部分大小为16位,所以这条指令由三个16位的字组 成。第一个16位是“A|G|op”,高8位由A与G组成,低字节由操作码op组成。第二个16 位由BBBB组成,它表示一个16位的偏移值。第三个16位分别由F、E、D、C共四个4 字节组成,在这里它们表示寄存器参数
单独使用位标识还无法确定一条指令,必须通过指令格式标识来指定指令的格式编码。 它的约定如下:
指令格式标识大多由三个字符组成,前两个是数字,最后一个是字母
第一个数字是表示指令有多少个16位的字组成
第二个数字是表示指令最多使用寄存器的个数。特殊标记“r”标识使用一定范围内的寄存器
第三个字母为类型码,表示指令用到的额外数据的类型
例子:22x
第一个数字2表示指令有两个16位字组成,第二个数字2表示指令使用到2个寄存器, 第三个字母x表示没有使用到额外的数据
Dalvik指令对语法约定
每条指令从操作码开始,后面紧跟参数,参数个数不定,每个参数之间采用逗号分开
每条指令的参数从指令第一部分开始,op位于低8位,高8位可以是一个8位的 参数,也可以是两个4位的参数,还可以为空,如果指令超过16位,则后面部分 依次作为参数
如果参数采用“vX”的方式表示,表明它是一个寄存器,如v0、v1等。这里采用v而不用r是为了避免与基于该虚拟机架构本身的寄存器命名产生冲突,如ARM 架构寄存器命名采用I开头
如果参数采用“#+X”的方式表示,表明它是一个常量数字
如果参数采用“+X”的方式表示,表明它是一个相对指令的地址偏移
如果参数采用“[email protected]”的方式表示,表明它是一个常量池索引值。其中kind表 示常量池类型,它可以是“string”(字符串常量池索引)、“type”(类型常量池索引)、“field”(字段常量池索引)或者“meth”(方法常量池索引)
例子:op vAA, [email protected]
指令用到了 1个寄存器参数vAA,并且还附加了一个字符串常量池索引[email protected]
Android 源码 Dalvik/docs 目录下提供了一份文档 insmction-formats.html,里面详细列举了Dalvik指令的所有格式
在Android Dex文件格式(二)中有详细的指令格式解析, 通过解析Hello.dex的指令格式还原出smali代码