第二届“中国高校计算机大赛-大数据挑战赛” 20名

赛题地址:http://bdc.saikr.com/vse/bdc/2017

1 引言

本次大赛以某人机验证产品采集的鼠标轨迹脱敏数据为基础,期望用机器学习算法来提高人机验证中各种机器行为的检出率,其中包括对抗过程中出现的新的攻击手段的检测。复赛在DIX平台上利用初赛3000条训练集数据轨迹预测200万条测试集数据轨迹。

1.1 基本解题思路

由于复赛的200万条数据与初赛的训练集和A、B榜数据存在很大的不同,初赛特征不能完全适用于复赛,所以我们队在复赛期间重新观察3000训练数据(具体见2.1节)后认为:机器样本之中也存在着多种不同的类别,同样的特征在不同机器类别中会出现互斥现象,即多个特征用在同一模型的效果不如将多个特征分开使用的效果好。故而我们队采用不同的模型识别不同种类的机器样本,最后将不同模型的识别结果合并作为最终的机器样本结果。

我们队主要分为了五个不同的预测结果,包括四个GBDT模型及特征和一条规则,具体为:

1)  GBDT1:主要以初赛的模型特征作为基础,特征20维;

2)  rule:以3000训练集中的2800-2900机器样本为基础提取的规则;

3)  GBDT2:采用一定条件对预测集数据进行筛选,再采用gbdt模型训练预测,包括‘x方向上速度平均值比最后速度平均值’及‘轨迹是否有回勾’两个特征;

4)  GBDT3:采用gbdt模型训练预测,包括‘x方向上速度平均值比最后速度平均值’及‘角度唯一值个数的变异系数’两个特征;

5)  GBDT4:采用gbdt模型训练预测,包括‘y方向增量的增量平均卷积的标准差’及‘y方向增量的增量标准差卷积的标准差’两个特征。

1.2 文件代码描述

所有代码包含在‘code’文件夹内,在DIX平台的运行方式参见3.2节,每一个代码文件的具体作用如下:

2  get_feature.py——初赛20维训练集测试集特征提取

2  GBDT.py——GBDT1模型训练及预测结果

2  rules.py——rule规则提取结果

2  get_linefeature.py——GBDT2、GBDT3、GBDT4训练集测试集特征提取

2  lineGBDT.py——GBDT2模型训练及预测结果

2  angleGBDT.py——GBDT3模型训练及预测结果

2  rollingGDBT.py——GBDT4模型训练及预测结果

2  merge.py——预测结果合并

2 模型及特征工程

2.1 数据观察

如上述所言,我们重点对3000训练集中的后400机器样本进行了轨迹观察,包括x、y方向速度、增量标准差、加速度等。最后我们将400条黑样本划分为了三个大类:

1)2601-2800为一大类,该类中按顺序每50条轨迹为一小类,该大类的主要特点就是每一条轨迹都能在其所属的小类中找到模板,即其最终的序列是相同的,只是根据验证码滑块的位置取到不同的序列,如图2-1所示就是2601-2650小类中x方向增量为0的序列

图2-1

2)2801-2900为一大类,该类的主要特点是其x方向的增量固定,用我们的特征表示为delt_x_std(x方向上增量标准差)为0。

3)2901-3000为一大类,该类的主要特点是y会频繁地随机上下波动,对y方向上的增量取窗口为2的滑窗标准差,其序列相比于前2900条轨迹更为散乱,即标准差更大。

2.2 GBDT1

该模型以初赛的模型特征作为基础,经过特征筛选后的最终特征20维,具体含义如下:

  • 起始点特征:

2  ‘first_data_x’,  #起始点x坐标

2  ‘first_speed_x’, #起始点x方向速度

2  ‘first_data_y’, #起始点y坐标

2  ‘first_delt_t’, #起始点与第二个点时间的时间差

  • 统计信息特征:

2  ’X_max‘, #轨迹x坐标的最大值

2  ’y_min‘, #轨迹y坐标的最小值

2  ‘x_min ##轨迹x坐标的最小值

  • 规则特征:

2  ‘data_x_return‘, #是否有回勾

  • 交叉特征

2  ‘speed_xstd_laststd‘ #x 方向速度全局的标准差与最后9个点标准差的比值

时间: 2024-10-08 08:29:48

第二届“中国高校计算机大赛-大数据挑战赛” 20名的相关文章

CCCC中国高校计算机大赛 - 网络技术挑战赛 - 无线网络技术 样题解析

一个AP当前正以4mW的功率传送数据.为了创建一个更大的无线蜂窝,需要将其信号强度增加6dB,请问新的传输功率应该是多少?D A. 8 mW B. 10 mW C. 12 mW D. 16 mW E. 24 mW 以下哪些术语正确描述了802.11n中MIMO的实现?(选择三项)CEF A.信道绑定 B.动态频率选择 C.最大比值合并 D.包聚合 E.空间多路复用 F.传输波束成形 802.11n是在802.11g和802.11a之上发展起来的一项技术,最大的特点是速率提升,理论速率最高可达60

“中国高校计算机大赛-网络技术挑战赛” 赛区选拔赛

Ref:http://www.c4top.cn/file/07.pdf 赛区选拔赛 竞赛组委会提供统一的测试内容,由赛区执行委员会组织各晋级团队在统一的地点和时间参赛. 赛区选拔赛采用“一级模块(L1+)”和“二级模块(L2)” 相结合的形式进行. “一级模块(L1+)”竞赛采用客观题(单项选择.多项选择.匹配. 填空等)在线测试方式,竞赛时长 90 分钟,150 道题. “二级模块(L2)”竞赛采用虚拟仿真技能实战和在线问题测试相结合的方式,参赛团队在虚拟仿真实验环境(Packet Trace

中国高校计算机大赛—网络技术挑战赛

http://www.c4top.cn/html/hmod04.htm 网络技术挑战赛(Network Technology Challenge)的目的在于适应互联网技术与应用的发展,对接互联网与信息产业相关人才需求,提升在校大学生的网络技术应用与开发能力,培养学生的创新精神和团队合作能力,提高大学生的综合素质,促进高等学校网络工程与技术类相关课程的教学内容和教学方法改革,促进产教融合的IT人才培养模式改革.

2019年GPLT L2-1 特立独行的幸福 比赛题解 中国高校计算机大赛-团体程序设计天梯赛题解

对一个十进制数的各位数字做一次平方和,称作一次迭代.如果一个十进制数能通过若干次迭代得到 1,就称该数为幸福数.1 是一个幸福数.此外,例如 19 经过 1 次迭代得到 82,2 次迭代后得到 68,3 次迭代后得到 100,最后得到 1.则 19 就是幸福数.显然,在一个幸福数迭代到 1 的过程中经过的数字都是幸福数,它们的幸福是依附于初始数字的.例如 82.68.100 的幸福是依附于 19 的.而一个特立独行的幸福数,是在一个有限的区间内不依附于任何其它数字的:其独立性就是依附于它的的幸福

2019年GPLT L2-3 深入虎穴 比赛题解 中国高校计算机大赛-团体程序设计天梯赛题解

著名的王牌间谍 007 需要执行一次任务,获取敌方的机密情报.已知情报藏在一个地下迷宫里,迷宫只有一个入口,里面有很多条通路,每条路通向一扇门.每一扇门背后或者是一个房间,或者又有很多条路,同样是每条路通向一扇门-- 他的手里有一张表格,是其他间谍帮他收集到的情报,他们记下了每扇门的编号,以及这扇门背后的每一条通路所到达的门的编号.007 发现不存在两条路通向同一扇门. 内线告诉他,情报就藏在迷宫的最深处.但是这个迷宫太大了,他需要你的帮助 -- 请编程帮他找出距离入口最远的那扇门. 输入格式:

2019年GPLT L2-4 彩虹瓶 比赛题解 中国高校计算机大赛-团体程序设计天梯赛题解

彩虹瓶的制作过程(并不)是这样的:先把一大批空瓶铺放在装填场地上,然后按照一定的顺序将每种颜色的小球均匀撒到这批瓶子里. 假设彩虹瓶里要按顺序装 N 种颜色的小球(不妨将顺序就编号为 1 到 N).现在工厂里有每种颜色的小球各一箱,工人需要一箱一箱地将小球从工厂里搬到装填场地.如果搬来的这箱小球正好是可以装填的颜色,就直接拆箱装填:如果不是,就把箱子先码放在一个临时货架上,码放的方法就是一箱一箱堆上去.当一种颜色装填完以后,先看看货架顶端的一箱是不是下一个要装填的颜色,如果是就取下来装填,否则去

第二届全国高校SDN网络应用创新大赛获奖名单出炉

8月28日,第二届全国高校SDN网络应用创新开发大赛决赛在华南理工大学进行,在参与决赛的30支队伍中,最终决出了5支一等奖队伍.10支二等奖队伍.13支三等奖队伍及最佳创意奖.最佳潜力奖.个人理论奖等.本次决赛代表历时8个月的第二届全国高校SDN网络应用创新大赛完美落幕. 第二届全国高校SDN网络应用创新大赛合照 据了解,本次大赛共吸引了来自全国59所高校.108支参赛队伍的476名参赛选手参赛,其中有18支本科生队伍.12支研究生队伍进入了8月份在广州华南理工大学进行的复赛阶段.复赛阶段采用理

演绎另类黑客马拉松,机智云第二届中国智能硬件36小时开发大赛再现极速开发

互联网的蓬勃发展,以硬件开发为内容的创客马拉松在世界范围内兴起,吸引了众多硬件达人.创和智能手机的风行让源自编码潮流的黑客马拉松在全球风靡,堪称程序员的"美国偶像",一群软件开发高手云集一堂,几十个小时里开发出一款插件或破译一个程序,累了或坐或卧现场休息,做完当场交作品,是世界上最酷的开发者狂欢.近年来伴随着物联网产业客和爱好者的青睐. 但纵观世界,智能硬件开发马拉松却鲜少有人组织,探究原因则在于智能硬件是一个跨学科的综合体,不仅需要掌握硬件开发能力,还需要有软件应用开发.云计算和大数

“第二届全国高校软件定义网络(SDN)应用创新开发大赛” 第八次培训研讨会的通知

各相关高校.单位: 为推动互联网应用创新人才的培养,教育部科技发展中心将于决定于2014年11月至2015年8月举办"第二届全国高校软件定义网络(SDN)应用创新开发大赛"(教技发中心函[2014]126号).本赛项由互联网应用创新开放平台联盟主办,华南理工大学信息网络工程研究中心承办,关于大赛详细信息可浏览网址:www.iiu.edu.cn/chuangxin和www.scut.edu.cn/sdn. 为保障赛事顺利进行,赛项执委会将于2015年5月16日(周六)在江苏省未来网络创新