利用基于压缩的图挖掘技术进行基于行为的恶意软件检测技术

利用基于压缩的图挖掘进行基于行为的恶意软件检测技术

摘要——基于行为的检测方法通常用来处理经过了静态混淆的恶意软件的威胁。这种方法通常使用图来代表进程或者系统的行为,通常使用基于频率的挖掘技术,从恶意软件图的数据集中提取特征模式。分子挖掘领域最近的研究表明,基于频率的图挖掘算法通常会寻找高辨识度模式的次最优方法。我们提出了一种恶意软件检测的方法,使用基于量化数据流图的压缩挖掘方法,来获得精确度较高的检测模型。我们在一组大型多样的恶意软件数据集上的实验显示,我们的方法在比基于频率的检测模型高出了600%的检测有效度。

 

关键词——恶意软件检测,量化数据流分析,数据挖掘,图挖掘,机器学习

一、概要

恶意软件仍然是目前最大的IT安全威胁之一,每天都有成千上万个变种出现,每年造成了数十亿美元的损失。随着恶意软件的开发成为了一种有利可图的商业模型[1][2],今天的恶意软件背景十分复杂,而且会利用多样的混淆及反调试技术[3][4]。这就对传统的基于特征的检测造成了威胁,因为多态的恶意软件通常会自动建立看上去完全不同的混淆二进制兄弟进程。

作为一种应对措施,基于行为的恶意软件检测技术在过去十年有了很大的发展。与静态检测不同,基于行为的检测方法不使用恶意样本的二进制文件进行分析和检测,而是通过学习恶意软件,然后再检测典型的恶意软件行为。目前来说,有一种流行的行为模型使用图来表示系统调用[5][6][7][8][9][10][11]或资源依赖[12][13]。最常见的利用这类基于图的行为模型来检测恶意软件的方法,是通过扫描未知图来获取典型的恶意软件的行为模式(即子图。注:为简介起见,我们规定术语模式和子图,可以和术语系统调用和Windows API调用互换)。这些模式的仓库,要不就是手动指定,要不就是利用图挖掘从已知的恶意软件图中来提取。

图挖掘的核心思想就是确定在一个训练集中,由许多个图共享的判别模式:有助于准确地将已知恶意样本的图和良性样本的图分离的模式。大多数使用图挖掘来识别恶意软件方法都是从频率的角度来确定一个模式是否有用[5][6][7][8][9][10][11][14][15]。这就意味着,一个模式是否有用,取决于它在被分析样本中出现的频率,而与模式中其他属性无关。所以,基于图挖掘的基于行为的恶意软件检测通常会使用基于频率的算法,比如AGM[16],gFSG[17]或者是GSpan[18]。

最近从分子(图)挖掘领域得到的结果显示,与所谓的基于压缩的挖掘方法相比,基于频率的挖掘通常会产出更小的interesting(?),因此模式的区分度也更不明显[19]。与基于频率的挖掘技术相比较,基于压缩的挖掘技术确实考虑了一个模式结构上的复杂性,来决定它是否有用。他们通过account for(?) 一个模式收缩挖掘集图形的能力来实现的。也就是说,一个压缩挖掘集中大部分图的模式,即使出现的的频率低于另一个具有更有限压缩能力的更简单的模式,可能也仍然会比一个更简单出现频率却更高的模式具有更好的区分性。(为了避免混淆,请注意“压缩”应该以一种直观的方式来理解,而不是信息论中的方式:我们通常认为,“压缩”是有损的。)

据我们所知,基于压缩的图挖掘进行恶意软件检测的有效性迄今为止,还没有被人关注过。我们看到了很好的理由来相信,在分子挖掘领域中的观点会被迁移到恶意软件分析上。这种假设被我们在一项初步研究中得到的结果证实,在这里,我们对从大量恶意软件样本中获得的数据流图使用了先进的基于频率的挖掘技术[18]。由此产生的模式,即使在原则上是有区别的且在恶意软件检测中是有效的,但却完全是一些非常简单的行为,比如读取系统的库函数,或者是写入注册表项。使用这样简单的模式应用在恶意软件检测上是有问题的,因为他们可能:a)对分析恶意软件家族的变化非常敏感,b)处于同样的原因,比较容易circumvent[20],c)可能会错过一些比较重要且更复杂的恶意软件的特定行为模式,比如自我复制。

因此,我们提出使用一个基于压缩的图挖掘方法来提取行为模式。采用文献[13]中基于行为的恶意软件检测模型,将恶意软件行为表示成定量数据流图(QDFGs),我们展示了,使用基于压缩算法挖掘出来的模式,比纯基于频率方法挖掘的模式,在恶意软件检测率方面更胜一筹。进一步有,考虑使用QDFGs编码的量化数据流来确定图压缩级别,比使用图结构属性来计算压缩因子会产生更好的效果。

问题。我们解决了在恶意软件行为图中寻找interesting模式的问题,它们具有足够强的辨识度,以一个合理的挖掘开销,来提供很高的检测准确度。特别地,我们的目标是模式有效的概念,就像是相关工作里介绍的那样,比简单的考虑模式频率作为效率度量拥有更好的检测结果。

解决办法。为了挖掘辨识度高的恶意软件行为模式,我们采用并调整了一款著名的针对QDFGs的基于压缩图挖掘的算法。QDFGs将恶意软件行为建模成系统实体之间量化数据流的集合,并由执行的系统调用引导。匹配从知名恶意软件和良性软件中获得的模式,我们训练一个有监督的分类器,用于对未知的恶意软件样本进行分类。

贡献。据我们所知,我们是i)第一个基于压缩的图挖掘技术来使用定量数据流信息进行基于行为的恶意软件检测,ii)我们表明,使用基于压缩的挖掘得到的模式,比常见的基于频率的挖掘算法获得到的模式,精确度提到了600%。

组织结构。第2节中,概述图挖掘和构成我们方法的定量数据流模型,第3节介绍具体步骤。第4节讨论了评估指标,我们的成果在第5节中展示,第6节用来总结。

---------------------------------------------------

论文原文发表于TDSC 2019  地址:  https://ieeexplore.ieee.org/document/7867799

原文地址:https://www.cnblogs.com/xrblog/p/11784880.html

时间: 2024-08-28 12:45:36

利用基于压缩的图挖掘技术进行基于行为的恶意软件检测技术的相关文章

基于离散余弦变换的同图复制的检测技术

本文是一则学习小结 图像篡改的背景及意义 ??目前图像已经成为人类社会中必不可少的一部分,人们的日常生活中到处都可以见到图像.特别在医学.商业.军事.情报.学术研究.法律和新闻领域中,图像作为原始事件或现象的真实记录,具有信息载体和数字证明的作用.然而人们渐渐发现图像的真实性已经不再可靠了.篡改图像出现的频率越来越大,要分辨出它们也越来越困难. 已知检测技术 数字水印 易损水印,半易损水印和鲁棒水印 水印在图像篡改之前存在 要求所有设备都带有水印装置是不可能的 盲检测技术 不依赖数字水印,是基于

基于大规模RDF图的关键字查询

1. 基础知识 RDF图:RDF图是由三元组(subject, predicate, object)组成的有向图,subject通过predicate指向object,如图1-1所示为一个RDF图.通常用三元组的数量表示RDF图的大小. 图1-1 RDF图 RDF压缩图:基于RDF图的关键字查询先将图进行压缩为图G=(V, E).其中节点V包括RDF图中的实体.姓名(标签).类型信息,边E为RDF中实体之间的关系.图1-1所示RDF压缩图如图1-2所示. 图1-2 压缩图 下文中出现的图均为压缩

软件架构设计---基于鲁棒图进行设计

如何借助鲁棒图进行初步设计呢? ADMEMS方法归纳了鲁棒图建模的10条经验要点,分别覆盖语法,思维,技巧,注意事项等4个方面. 鲁棒图建模的10条经验. 1.遵守建模规则. 通过以下4条语句,可以理解该图的本质: 1.1 参与者只能与边界对象交谈. 1.2 边界对象只能与控制对象和参与者交谈. 1.3 实体对象也只能与控制对象交谈. 1.4 控制对象既能与边界对象交谈,也能与控制对象交谈,但不能与参与者交谈. 2.简化建模语法 2.1 ADMEMS方法推荐鲁棒图建模的语法.在实践中,简化的鲁棒

利用oxygen编辑并生成xml文件,并使用JAVA的JAXB技术完成xml的解析

首先下载oxygen软件(Oxygen XML Editor),目前使用的是试用版(可以安装好软件以后get trial licence,获得免费使用30天的权限,当然这里鼓励大家用正版软件!!!) 1 首先建立一个空白XML文件,直接点击下图所示即可: 2 可以使用xml文本编辑界面,或者使用xml树状图编辑界面 切换到xml树状图编辑界面的方法为: 即可调出当前xml文件所对应的xml树状图编辑界面 3 设计并编辑xml文件 根据自己的需要可以利用xml树状图操作界面来方便的设计自己的xml

图像处理之积分图应用四(基于局部均值的图像二值化算法)

图像处理之积分图应用四(基于局部均值的图像二值化算法) 基本原理 均值法,选择的阈值是局部范围内像素的灰度均值(gray mean),该方法的一个变种是用常量C减去均值Mean,然后根据均值实现如下操作: pixel = (pixel > (mean - c)) ? object : background 其中默认情况下参数C取值为0.object表示前景像素,background表示背景像素. 实现步骤 1. 彩色图像转灰度图像 2. 获取灰度图像的像素数据,预计算积分图 3. 根据输入的参数

基于RealSense的坐姿检测技术

计算机的飞速普及,让人们将越来越多的工作放在计算机上去完成,各行各业,尤其是程序开发人员.文字工作者,在计算机上的工作时间越来越长,这种情况下不良的坐姿对颈肩腰椎都会产生很大影响,容易导致多种疾病的发生.青少年接触计算机的年龄越来越小,保持良好的坐姿对于青少年的成长发育以及保护视力都大有裨益.调查显示肩部腰部疾病的发病率越来越高,发病年龄越来越小,跟长期坐着工作有关,我们还发现有一些奇特的办公是站立办公甚至在跑步机上办公.这些问题都说明,坐姿正确与否对健康有很大影响.在工作强度越来越大.休息锻炼

【GCN】图卷积网络初探——基于图(Graph)的傅里叶变换和卷积

[GCN]图卷积网络初探——基于图(Graph)的傅里叶变换和卷积 2018年11月29日 11:50:38 夏至夏至520 阅读数 5980更多 分类专栏: # MachineLearning 版权声明:本文为博主原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接和本声明. 本文链接:https://blog.csdn.net/qq_41727666/article/details/84622965 本文为从CNN到GCN的联系与区别——GCN从入门到精(fang)通(qi

目标检测梳理:基于深度学习的目标检测技术演进:R-CNN、Fast R-CNN、Faster R-CNN(转)

基于深度学习的目标检测技术演进:R-CNN.Fast R-CNN.Faster R-CNN(转) 原文链接:https://www.cnblogs.com/skyfsm/p/6806246.html object detection我的理解,就是在给定的图片中精确找到物体所在位置,并标注出物体的类别.object detection要解决的问题就是物体在哪里,是什么这整个流程的问题.然而,这个问题可不是那么容易解决的,物体的尺寸变化范围很大,摆放物体的角度,姿态不定,而且可以出现在图片的任何地方

防止多图OOM的核心解决思路就是使用LruCache技术

防止多图OOM的核心解决思路就是使用LruCache技术.但LruCache只是管理了内存中图片的存储与释放,如果图片从内存中被移除的话,那么又需要从网络上重新加载一次图片,这显然非常耗时.对此,Google又提供了一套硬盘缓存的解决方案:DiskLruCache(非Google官方编写,但获得官方认证).只可惜,Android Doc中并没有对DiskLruCache的用法给出详细的说明,而网上关于DiskLruCache的资料也少之又少,因此今天我准备专门写一篇博客来详细讲解DiskLruC