利用基于压缩的图挖掘进行基于行为的恶意软件检测技术
摘要——基于行为的检测方法通常用来处理经过了静态混淆的恶意软件的威胁。这种方法通常使用图来代表进程或者系统的行为,通常使用基于频率的挖掘技术,从恶意软件图的数据集中提取特征模式。分子挖掘领域最近的研究表明,基于频率的图挖掘算法通常会寻找高辨识度模式的次最优方法。我们提出了一种恶意软件检测的方法,使用基于量化数据流图的压缩挖掘方法,来获得精确度较高的检测模型。我们在一组大型多样的恶意软件数据集上的实验显示,我们的方法在比基于频率的检测模型高出了600%的检测有效度。
关键词——恶意软件检测,量化数据流分析,数据挖掘,图挖掘,机器学习
一、概要
恶意软件仍然是目前最大的IT安全威胁之一,每天都有成千上万个变种出现,每年造成了数十亿美元的损失。随着恶意软件的开发成为了一种有利可图的商业模型[1][2],今天的恶意软件背景十分复杂,而且会利用多样的混淆及反调试技术[3][4]。这就对传统的基于特征的检测造成了威胁,因为多态的恶意软件通常会自动建立看上去完全不同的混淆二进制兄弟进程。
作为一种应对措施,基于行为的恶意软件检测技术在过去十年有了很大的发展。与静态检测不同,基于行为的检测方法不使用恶意样本的二进制文件进行分析和检测,而是通过学习恶意软件,然后再检测典型的恶意软件行为。目前来说,有一种流行的行为模型使用图来表示系统调用[5][6][7][8][9][10][11]或资源依赖[12][13]。最常见的利用这类基于图的行为模型来检测恶意软件的方法,是通过扫描未知图来获取典型的恶意软件的行为模式(即子图。注:为简介起见,我们规定术语模式和子图,可以和术语系统调用和Windows API调用互换)。这些模式的仓库,要不就是手动指定,要不就是利用图挖掘从已知的恶意软件图中来提取。
图挖掘的核心思想就是确定在一个训练集中,由许多个图共享的判别模式:有助于准确地将已知恶意样本的图和良性样本的图分离的模式。大多数使用图挖掘来识别恶意软件方法都是从频率的角度来确定一个模式是否有用[5][6][7][8][9][10][11][14][15]。这就意味着,一个模式是否有用,取决于它在被分析样本中出现的频率,而与模式中其他属性无关。所以,基于图挖掘的基于行为的恶意软件检测通常会使用基于频率的算法,比如AGM[16],gFSG[17]或者是GSpan[18]。
最近从分子(图)挖掘领域得到的结果显示,与所谓的基于压缩的挖掘方法相比,基于频率的挖掘通常会产出更小的interesting(?),因此模式的区分度也更不明显[19]。与基于频率的挖掘技术相比较,基于压缩的挖掘技术确实考虑了一个模式结构上的复杂性,来决定它是否有用。他们通过account for(?) 一个模式收缩挖掘集图形的能力来实现的。也就是说,一个压缩挖掘集中大部分图的模式,即使出现的的频率低于另一个具有更有限压缩能力的更简单的模式,可能也仍然会比一个更简单出现频率却更高的模式具有更好的区分性。(为了避免混淆,请注意“压缩”应该以一种直观的方式来理解,而不是信息论中的方式:我们通常认为,“压缩”是有损的。)
据我们所知,基于压缩的图挖掘进行恶意软件检测的有效性迄今为止,还没有被人关注过。我们看到了很好的理由来相信,在分子挖掘领域中的观点会被迁移到恶意软件分析上。这种假设被我们在一项初步研究中得到的结果证实,在这里,我们对从大量恶意软件样本中获得的数据流图使用了先进的基于频率的挖掘技术[18]。由此产生的模式,即使在原则上是有区别的且在恶意软件检测中是有效的,但却完全是一些非常简单的行为,比如读取系统的库函数,或者是写入注册表项。使用这样简单的模式应用在恶意软件检测上是有问题的,因为他们可能:a)对分析恶意软件家族的变化非常敏感,b)处于同样的原因,比较容易circumvent[20],c)可能会错过一些比较重要且更复杂的恶意软件的特定行为模式,比如自我复制。
因此,我们提出使用一个基于压缩的图挖掘方法来提取行为模式。采用文献[13]中基于行为的恶意软件检测模型,将恶意软件行为表示成定量数据流图(QDFGs),我们展示了,使用基于压缩算法挖掘出来的模式,比纯基于频率方法挖掘的模式,在恶意软件检测率方面更胜一筹。进一步有,考虑使用QDFGs编码的量化数据流来确定图压缩级别,比使用图结构属性来计算压缩因子会产生更好的效果。
问题。我们解决了在恶意软件行为图中寻找interesting模式的问题,它们具有足够强的辨识度,以一个合理的挖掘开销,来提供很高的检测准确度。特别地,我们的目标是模式有效的概念,就像是相关工作里介绍的那样,比简单的考虑模式频率作为效率度量拥有更好的检测结果。
解决办法。为了挖掘辨识度高的恶意软件行为模式,我们采用并调整了一款著名的针对QDFGs的基于压缩图挖掘的算法。QDFGs将恶意软件行为建模成系统实体之间量化数据流的集合,并由执行的系统调用引导。匹配从知名恶意软件和良性软件中获得的模式,我们训练一个有监督的分类器,用于对未知的恶意软件样本进行分类。
贡献。据我们所知,我们是i)第一个基于压缩的图挖掘技术来使用定量数据流信息进行基于行为的恶意软件检测,ii)我们表明,使用基于压缩的挖掘得到的模式,比常见的基于频率的挖掘算法获得到的模式,精确度提到了600%。
组织结构。第2节中,概述图挖掘和构成我们方法的定量数据流模型,第3节介绍具体步骤。第4节讨论了评估指标,我们的成果在第5节中展示,第6节用来总结。
---------------------------------------------------
论文原文发表于TDSC 2019 地址: https://ieeexplore.ieee.org/document/7867799
原文地址:https://www.cnblogs.com/xrblog/p/11784880.html