一篇文章带你领略Android混淆的魅力

在 Android 日常开发过程中,混淆是我们开发 App 的一项必不可少的技能。只要是我们亲身经历过 App 打包上线的过程,或多或少都需要了解一些代码混淆的基本操作。那么,混淆到底是什么?它的好处有哪些?具体效果如何?别急,下面我们来一一探索它的"独特"魅力。

混淆简介

代码混淆Obfuscated code)是将程序中的代码以某种规则转换为难以阅读和理解的代码的一种行为。

混淆的好处

混淆的好处就是它的目的:令 APK 难以被逆向工程,即很大程度上增加反编译的成本。此外,Android 当中的"混淆"还能够在打包时移除无用资源,显著减少 APK 体积。最后,还能以变通方式避免 Android 中常见的 64k 方法数引用的限制。

我们先来看一下混淆前后的 APK 结构对比:

从上面两张图可以看出:经过混淆处理之后,我们的 APK 中包名、类名、成员名等都被替换为随机、无意义的名称,增加了代码阅读和理解的困难程度,提高了反编译的成本。细心的小伙伴可能又会注意到:混淆前后 APK 的体积竟然从 2.7M 减小到了 1.4M,体积缩减了近一倍!真的有这么神奇吗?哈哈,确实是这么神奇,让我们慢慢来揭开它的神秘面纱吧。

Android 当中的混淆

在 Android 中,我们平常所说的"混淆"其实有两层意思,一个是 Java 代码的混淆,另外一个是资源的压缩。其实这两者之间并没有什么关联,只不过习惯性地放在一起来使用。那么,说了这么多,Android 平台上到底该如何开启混淆呢?

启用混淆

......

android {
    buildTypes {
        release {
            minifyEnabled true
            shrinkResources true
            proguardFiles getDefaultProguardFile('proguard-android.txt'), 'proguard-rules.pro'
        }
    }
}

以上就是开启混淆的基本操作了,通过 minifyEnabled 设置为 true 来开启混淆。同时,可以设置 shrinkResourcestrue 来开启资源的压缩。不难看出,我们一般在打 release 包时才启用混淆,因为混淆会增加额外的编译时间,所以不建议在 debug 模式下启用。此外,需要注意的是:只有在启用混淆的前提下开启资源压缩才会有效!以上代码中的 proguard-android.txt 表示 Android 系统为我们提供的默认混淆规则文件,而 proguard-rules.pro 则是我们想要自定义的混淆规则,至于如何自定义混淆规则我们将在接下来会讲到。

代码混淆

其实,Java 平台为我们提供了 Proguard 混淆工具来帮助我们快速地对代码进行混淆。根据 Java 官方介绍,Proguard 对应的具体中文定义如下:

  • 它是一个包含代码文件压缩优化混淆校验等功能的工具
  • 它能够检测并删除无用的类、变量、方法和属性
  • 它能够优化字节码并删除未使用的指令
  • 它能够将类、变量和方法的名字重命名为无意义的名称从而达到混淆效果
  • 最后,它还会校验处理后的代码,主要针对 Java 6 及以上版本和 Java ME

资源压缩

Android 中,编译器为我们提供了另外一项强大的功能:资源的压缩。资源压缩能够帮助我们移除项目及依赖仓库中未使用到的资源,有效地降低了apk包的大小。由于资源压缩与代码混淆是协同工作,所以,如果需要开启资源的压缩,切记要先开启代码混淆,否则会出现以下问题:

ERROR: Removing unused resources requires unused code shrinking to be turned on. See http://d.android.com/r/tools/shrink-resources.html for more information.
Affected Modules: app

自定义要保留的资源

当我们开启了资源压缩之后,系统会默认替我们移除所有未使用的资源,假如我们需要保留某些特定的资源,可以在我们项目中创建一个被 <resources> 标记的 XML 文件(如 res/raw/keep.xml),并在 tools:keep 属性中指定每个要保留的资源,在 tools:discard 属性中指定每个要舍弃的资源。这两个属性都接受逗号分隔的资源名称列表。同样,我们可以使用字符 * 作为通配符。如:

<?xml version="1.0" encoding="utf-8"?>
<resources xmlns:tools="http://schemas.android.com/tools"
    tools:keep="@layout/activity_video*,@layout/dialog_update_v2"
    tools:discard="@layout/unused_layout,@drawable/unused_selector" />

启用严格检查模式

正常情况下,资源压缩器可准确判定系统是否使用了资源。不过,如果您的代码(包含库)调用 Resources.getIdentifier(),这就表示您的代码将根据动态生成的字符串查询资源名称。这时,资源压缩器会采取防御性行为,将所有具有匹配名称格式的资源标记为可能已使用,无法移除。例如,以下代码会使所有带 img_ 前缀的资源标记为已使用:

String name = String.format("img_%1d", angle + 1);
res = getResources().getIdentifier(name, "drawable", getPackageName());

这时,我可以开启资源的严格审查模式,只会保留确定已使用的资源。

移除备用资源

Gradle 资源压缩器只会移除未被应用引用的资源,这意味着它不会移除用于不同设备配置的备用资源。必要时,我们可以使用 Android Gradle 插件的 resConfigs 属性来移除您的应用不需要的备用资源文件(常见的有用于国际化支持的 strings.xml,适配用的 layout.xml 等):

android {
    defaultConfig {
        ...
        //保留中文和英文国际化支持
        resConfigs "en", "zh"
    }
}

自定义混淆规则

品尝完了以上"配菜",下面让我们来品味一下本文的"主菜":自定义混淆规则。首先,我们来了解一下常见的混淆命令。

keep 命令

这里说的 keep 命令指的是一系列以 -keep 开头的命令,它主要用来保留 Java 中不需要进行混淆的元素。以下是常见的 -keep 命令:

  • -keep

    作用:保留指定的类和成员,防止被混淆处理。例如:

    # 保留包:com.moos.media.entity 下面的类以及类成员
    -keep public class com.moos.media.entity.**
    
    # 保留类:NumberProgressBar
    -keep public class com.moos.media.widget.NumberProgressBar {*;}
  • -keepclassmembers

    作用:保留指定的类的成员(变量/方法),它们将不会被混淆。如:

    # 保留类的成员:MediaUtils类中的特定成员方法
    -keepclassmembers class com.moos.media.MediaUtils {
        public static *** getLocalVideos(android.content.Context);
        public static *** getLocalPictures(android.content.Context);
    }
  • -keepclasseswithmembers

    作用:保留指定的类和其成员(变量/方法),前提是它们在压缩阶段没有被删除。与-keep 使用方式类似:

    # 保留类:BaseMediaEntity 的子类
    -keepclasseswithmembers public class * extends com.moos.media.entity.BaseMediaEntity{*;}
    
    # 保留类:OnProgressBarListener接口的实现类
    -keep public class * implements com.moos.media.widget.OnProgressBarListener {*;}
  • @Keep

    除了以上方式,你也可以选择使用 @Keep 注解来保留期望代码,防止它们被混淆处理。比如,我们通过 @Keep 修饰一个类来保留它不被混淆:

    @Keep
    data class CloudMusicBean(var createDate: String,
                              var id: Long,
                              var name: String,
                              var url: String,
                              val imgUrl: String)

    同样地,我们也可以让 @Keep 来修饰方法或者字段进而保留它们。

其他命令

  1. dontwarn

    -dontwarn 命令一般在我们引入新的 library 时会使用到,常用于处理 library 中无法解决的警告。如:

    -keep class twitter4j.** { *; }
    
    -dontwarn twitter4j.**
  2. 其他的命令用法可参考 Android 系统提供的默认混淆规则:
    #混淆时不生成大小写混合的类名
    -dontusemixedcaseclassnames
    
    #不跳过非公共的库的类
    -dontskipnonpubliclibraryclasses
    
    #混淆过程中记录日志
    -verbose
    
    #关闭预校验
    -dontpreverify
    
    #关闭优化
    -dontoptimize
    
    #保留注解
    -keepattributes *Annotation*
    
    #保留所有拥有本地方法的类名及本地方法名
    -keepclasseswithmembernames class * {
        native <methods>;
    }
    
    #保留自定义View的get和set方法
    -keepclassmembers public class * extends android.view.View {
       void set*(***);
       *** get*();
    }
    
    #保留Activity中View及其子类入参的方法,如: onClick(android.view.View)
    -keepclassmembers class * extends android.app.Activity {
       public void *(android.view.View);
    }
    
    #保留枚举
    -keepclassmembers enum * {
        **[] $VALUES;
        public *;
    }
    
    #保留序列化的类
    -keepclassmembers class * implements android.os.Parcelable {
      public static final android.os.Parcelable$Creator CREATOR;
    }
    
    #保留R文件的静态成员
    -keepclassmembers class **.R$* {
        public static <fields>;
    }
    
    -dontwarn android.support.**
    
    -keep class android.support.annotation.Keep
    
    -keep @android.support.annotation.Keep class * {*;}
    
    -keepclasseswithmembers class * {
        @android.support.annotation.Keep <methods>;
    }
    
    -keepclasseswithmembers class * {
        @android.support.annotation.Keep <fields>;
    }
    
    -keepclasseswithmembers class * {
        @android.support.annotation.Keep <init>(...);
    }

    更多混淆命令可以参考文章:Proguard 最全混淆规则说明 ,这里就不做详细讲解了。

混淆"黑名单"

我们在了解了混淆的基本命令之后,很多人应该还是一头雾水:到底哪些内容该混淆?其实,我们在使用代码混淆时,ProGuard 对我们项目中大部分代码进行了混淆操作,为了防止编译时出错,我们应该通过 keep 命令保留一些元素不被混淆。所以,我们只需要知道哪些元素不应该被混淆

枚举

项目中难免可能会用到枚举类型,然而它不能参与到混淆当中去。原因是:枚举类内部存在 values 方法,混淆后该方法会被重新命名,并抛出 NoSuchMethodException。庆幸的是,Android 系统默认的混淆规则中已经添加了对于枚举类的处理,我们无需再去做额外工作。想了解更多枚举内部细节可以去查看源码,篇幅有限不再细说。

被反射的元素

被反射使用的类、变量、方法、包名等不应该被混淆处理。原因在于:代码混淆过程中,被反射使用的元素会被重命名,然而反射依旧是按照先前的名称去寻找元素,所以会经常发生 NoSuchMethodExceptionNoSuchFiledException 问题。

实体类

实体类即我们常说的"数据类",当然经常伴随着序列化反序列化操作。很多人也应该都想到了,混淆是将原本有特定含义的"元素"转变为无意义的名称,所以,经过混淆的"洗礼"之后,序列化之后的 value 对应的 key 已然变为没有意义的字段,这肯定是我们不希望的。同时,反序列化的过程创建对象从根本上来说还是借助于反射,混淆之后 key 会被改变,所以也会违背我们预期的效果。

四大组件

Android 中的四大组件同样不应该被混淆。原因在于:

  1. 四大组件使用前都需要在 AndroidManifest.xml 文件中进行注册声明,然而混淆处理之后,四大组件的类名就会被篡改,实际使用的类与 manifest 中注册的类并不匹配,故而出错。
  2. 其他应用程序访问组件时可能会用到类的包名加类名,如果经过混淆,可能会无法找到对应组件或者产生异常。

JNI 调用的Java 方法

当 JNI 调用的 Java 方法被混淆后,方法名会变成无意义的名称,这就与 C++ 中原本的 Java 方法名不匹配,因而会无法找到所调用的方法。

其他不应该被混淆的

  • 自定义控件不需要被混淆
  • JavaScript 调用 Java 的方法不应混淆
  • Java 的 native 方法不应该被混淆
  • 项目中引用的第三方库也不建议混淆

混淆后的堆栈跟踪

代码经过 ProGuard 混淆处理后,想要读取 StackTrace(堆栈追踪)信息就会变得很困难。由于方法名称和类的名称都经过混淆处理,即使程序发生崩溃问题,也很难定位问题所在。幸运的是,ProGuard 为我们提供了补救的措施,在着手进行之前,我们先来看一下 ProGuard 每次构建后生成了哪些内容。

混淆输出结果

混淆构建完成之后,会在 <module-name>/build/outputs/mapping/release/ 目录下生成以下文件:

  • dump.txt

    说明 APK 内所有类文件的内部结构。

  • mapping.txt

    提供混淆前后的内容对照表,内容主要包含类、方法和类的成员变量。

  • seeds.txt

    罗列出未进行混淆处理的类和成员。

  • usage.txt

    罗列出从 APK 中移除的代码。

恢复堆栈跟踪

了解完混淆构建完毕后输出的内容之后,我们现在就来看一下之前的问题:混淆处理后,StackTrace 定位困难。如何来恢复 StackTrace 的定位能力呢?系统为我们提供了 retrace 工具,结合上文提到的 mapping.txt 文件,就可以将混淆后的崩溃堆栈追踪信息还原成正常情况下的 StackTrace 信息。主要有两种方式来恢复 StackTrace,为了方便理解,我们以下面这段崩溃信息为例,借助两种方式分别来还原:

 java.lang.RuntimeException: Unable to start activity
     Caused by: kotlin.KotlinNullPointerException
        at com.moos.media.ui.ImageSelectActivity.k(ImageSelectActivity.kt:71)
        at com.moos.media.ui.ImageSelectActivity.onCreate(ImageSelectActivity.kt:58)
        at android.app.Activity.performCreate(Activity.java:6237)
        at android.app.Instrumentation.callActivityOnCreate(Instrumentation.java:1107)
  1. 通过 retrace 脚本工具

    首先我们要进入到 Android SDK 路径的 /tools/proguard/bin 目录中,这里以 Mac 系统为例,可以看到如下内容:

可以看到如上三个文件,而 proguardgui.sh 才是我们需要的 retrace 脚本(Windows系统下为 proguardgui.bat )。Windows 系统中只需要双击脚本 proguardgui.bat 即可运行,至于 Mac 系统,如果你没有做任何配置,只需要将 proguardgui.sh 脚本拖动到 Mac 自带的终端中,回车键即可运行。接着,我们会看到如下界面:

选择 ReTrace 栏 ,并添加我们项目中混淆生成的 mapping.txt 文件所在位置,然后将我们的混淆后的崩溃信息复制到 Obfuscated stack trace 那一栏,点击 ReTrace! 按钮即可还原出我们的崩溃日志信息,结果如上图所示,我们之前的混淆日志:at com.moos.media.ui.ImageSelectActivity.k(ImageSelectActivity.kt:71) 被还原成了 at com.moos.media.ui.ImageSelectActivity.initView(ImageSelectActivity.kt:71)ImageSelectActivity.k 是我们混淆后的方法名,ImageSelectActivity.initView 则是最初未混淆前的方法名,借助于 ReTrace 工具的帮助,我们就可以像以前一样很快定位到崩溃代码区域了。

  1. 通过 retrace 命令行

    我们先要将崩溃信息复制到 txt 格式的文件(如:proguard_stacktrace.txt)中保存,然后执行以下命令即可(MAC系统):

    retrace.sh -verbose mapping.txt proguard_stacktrace.txt

    如果你是 windows 系统,可以执行以下命令:

    retrace.bat -verbose mapping.txt proguard_stacktrace.txt

    最终还原的结果和之前效果一样:

也许你通过以上两种方式在对 stackTrace 进行恢复时,发现 Unknown Source 问题:

值得注意的是,记得在混淆规则中加上如下配置来提升我们的 StackSource 查找效率:

# 保留源文件名和具体代码行号
-keepattributes SourceFile,LineNumberTable

此外,我们每次使用 ProGuard 创建发布构建时都都会覆盖之前版本的 mapping.txt 文件,因此我们每次发布新版本时都必须小心地保存一个副本。通过为每个发布构建保留一个 mapping.txt 文件副本,我们就可以在用户提交的已混淆的 StackTrace 来对旧版本应用的问题进行调试和修复。

涨姿势的操作

经过上文的介绍,我们知道,APK 在经过代码混淆处理后,包名、类名、成员名被转化为无意义、难以理解的名称,增加反编译的成本。Android ProGuard 为我们提供了默认的"混淆字典",即将元素名称转为英文小写字母的形式。那么,我们可以定义自己的混淆字典吗?卖个关子,我们先来看一张效果图:

这个波操作是不是有点"出类拔萃"了?哈哈,就不卖关子了,其实很简单,只要生成一套自己的 txt 格式的混淆字典,然后在混淆规则 Proguard-rules.pro 中应用一下即可:

本文中使用的混淆字典可以在此处查看并下载:proguard_tradition.txt

当然,大家也可以自己去定制化自己的"混淆字典",增加反编译的难度。

一路走下来,我们发现,从混淆技术的必要性和优点来看,它还是很值得我们去深入学习和研究的,本文带大家领略的仅仅是"冰山一角"。由于本人的技术水平有限,若大家发现有问题或者阐述不当之处,欢迎指出并修正。

相关参考

原文地址:https://www.cnblogs.com/moosphon/p/11565824.html

时间: 2024-08-04 03:07:40

一篇文章带你领略Android混淆的魅力的相关文章

什么是网络爬虫?有什么用?怎么爬?一篇文章带你领略python爬虫的魅力

网络爬虫也叫做网络机器人,可以代替人们自动地在互联网中进行数据信息的采集与整理.在大数据时代,信息的采集是一项重要的工作,如果单纯靠人力进行信息采集,不仅低效繁琐,搜集的成本也会提高. 此时,我们可以使用网络爬虫对数据信息进行自动采集,比如应用于搜索引擎中对站点进行爬取收录,应用于数据分析与挖掘中对数据进行采集,应用于金融分析中对金融数据进行采集,除此之外,还可以将网络爬虫应用于舆情监测与分析.目标客户数据的收集等各个领域. 当然,要学习网络爬虫开发,首先需要认识网络爬虫,本文将带领大家一起认识

一篇文章带你了解spring框架

虽然现在流行用SpringBoot了,很多配置已经简化和封装了,但是对于Spring的一些基础我们了解一些是对我们自己的架构思想很有帮助的!接下来和笔者一起来探讨一下Spring框架吧! 1.什么是Spring框架?Spring框架有哪些主要模块? Spring框架是一个为Java应用程序的开发提供了综合.广泛的基础性支持的Java平台.Spring帮助开发者解决了开发中基础性的问题,使得开发人员可以专注于应用程序的开发.Spring框架本身亦是按照设计模式精心打造,这使得我们可以在开发环境中安

Android 性能篇 -- 带你领略Android内存泄漏的前世今生

基础了解 什么是内存泄漏? 内存泄漏是当程序不再使用到的内存时,释放内存失败而产生了无用的内存消耗.内存泄漏并不是指物理上的内存消失,这里的内存泄漏是指由程序分配的内存但是由于程序逻辑错误而导致程序失去了对该内存的控制,使得内存浪费. Java 内存分配策略 Java 程序运行时的内存分配策略有三种,分别是 静态分配 . 栈式分配 和 堆式分配 ,对应的三种存储策略使用的内存空间主要分别是 静态存储区(也称方法区) . 栈区 和 堆区 . ?? 静态存储区(方法区):主要存放 静态数据 . 全局

一篇文章带你入门Linux——马哥Linux基础学习笔记

1.课程体系: 中级: 初级:系统基础 中级:系统管理.服务安全及服务管理.Shell脚本: 高级: MySQL数据库: cache & storage 集群: Cluster lb: 4layer 7layer ha: 分布式: zookeeper 分布式文件系统 虚拟化技术: xen kvm Openstack:IAAS云: 运维工具: ansible puppet(ruby), saltstack(python) 监控工具: zabbix 大数据处理: hadoop spark, stor

一篇文章带你搞懂DEX文件的结构

DEX文件就是Android Dalvik虚拟机运行的程序,关于DEX文件的结构的重要性我就不多说了.下面,开练! 建议:不要只看,跟着我做.看再多遍不如自己亲自实践一遍来的可靠,别问我为什么知道.泪崩ing..... 首先,我们需要自己构造一个dex文件,因为自己构造的比较简单,分析起来比较容易.等你简单的会了,难的自然也就懂了. 0x00■  构造DEX文件 首先,我们编写一个简单的Java程序,如下: public class HelloWorld { int a = 0; static

一篇文章带你深入理解什么是负载测试

介绍 任何软件开发项目接近完成的时候,它可能已经通过无数次测试了,特别是在测试和开发同时发生的敏捷测试环境下.无论你已经进行过多少轮测试,一旦你的应用程序已接近完成,那么只有一个办法知道你的软件是否可以满足真实用户群的实际需求,它就是负载测试.你可以使用负载测试工具来完成这项工作.负载测试是指给软件.应用程序或网站加上模拟的需求,以测试其在不同的环境下的运行状态的过程. 负载测试和性能测试 作为大家最了解且最常见的一种性能测试类型,负载测试即包括将常规压力施加到软件应用或 IT 系统,去看它们是

一篇文章了解相见恨晚的 Android Binder 进程间通讯机制【转】

本文转载自:https://blog.csdn.net/freekiteyu/article/details/70082302 Android-Binder进程间通讯机制 概述 最近在学习Binder机制,在网上查阅了大量的资料,也看了老罗的Binder系列的博客和Innost的深入理解Binder系列的博客,都是从底层开始讲的,全是C代码,虽然之前学过C和C++,然而各种函数之间花式跳转,看的我都怀疑人生.毫不夸张的讲每看一遍都是新的内容,跟没看过一样.后来又看到了Gityuan的博客看到了一

一篇文章带你深入理解Zookeeper

随着互联网技术的发展,大型网站需要的计算能力和存储能力越来越高.网站架构逐渐从集中式转变成分布式. 虽然分布式和集中式系统相比有很多优势,比如能提供更强的计算.存储能力,避免单点故障等问题.但是由于采用分布式部署的方式,就经常会出现网络故障等问题,并且如何在分布式系统中保证数据的一致性和可用性也是一个比较关键的问题. 分布式的工作方式有点类似于团队合作.当有一项任务分配到某个团队之后,团队内部的成员开始各司其职,然后把工作结果统一汇总给团队主管,由团队主管再整理团队的工作成果汇报给公司. 但是,

一篇文章带你了解JavaScript中的函数表达式,递归,闭包,变量,this对象,模块作用域

作者 | Jeskson 来源 | 达达前端小酒馆 定义函数的方式: 第一种为 函数声明: 第二种为 函数表达式. 语法: function functionName(arg0, arg1, arg2) { // 函数体 } 在Firefox,Safari,Chrome和Opera有效: 就是通过这个属性可以访问到这个函数指定的名字. console.log(functionName.name); // 'functionName' 函数声明: 它的一个重要特点就是:函数声明提升,就是在执行代码