数据挖掘研究方向、热点以及对大数据研究的认识

  通过上网查询以及看同行对会议的公共认识,数据挖掘领域的顶级会议是KDD(ACM SIGKDD Conference on Knowledge Discovery and Data Mining),公认的、排名前几位的会议是KDD、ICDE、CIKM、ICDM、SDM,期刊是ACM TKDD、IEEE TKDE、ACM TODS、ACM TOIS、DMKD、VLDB Journal等。会议及期刊的全称如下:

会议

ACM SIGKDD Conference on Knowledge Discovery and Data Mining (KDD)

International Conference on Data Engineering (ICDE)

International Conference on Information and Knowledge Management (CIKM)

IEEE International Conference on Data Mining (ICDM)

SIAM International Conference on Data Mining (SDM)

期刊

ACM Transactions on Knowledge Discovery From Data (TKDD)

IEEE Transactions on Knowledge and Data Engineering (TKDE)

ACM Transactions on Database Systems (TODS)

ACM Transactions on Information Systems (TOIS)

Data Mining and Knowledge Discovery (DMKD)

  通过最近几天对最新的(14年、15年)会议论文阅读,首先说一下数据挖掘领域在做什么、热点研究在哪里。

  数据挖掘领域主要包括以下方面:基础理论研究(规则和模式挖掘、分类、聚类、话题学习、时间空间数据挖掘、机器学习方法,监督、非监督、半监督等)、社交网络分析和大规模图挖掘(图模式挖掘、社区发现、网络聚类系数估计、网络关系挖掘、网络用户行为分析、网络信息传播、社交网络应用,社交推荐(信息、好友等))、大数据挖掘(算法的并行、分布式扩展、多源异构数据融合挖掘等)。数据挖掘应用(医疗、教育、金融等)。研究热点是大数据挖掘、社交网络和大规模图挖掘。

  下面,在说一下什么是大数据挖掘,它跟传统的方法其本质区别是什么?大数据挖掘可以分为三点:算法的扩展、分布式框架开发、多源数据融合分析。通过阅读KDD’13,KDD’14,几篇KDD’15的big data session中的文章,几乎百分之百的文章都提到了算法的scalability。由此可见,现今大数据挖掘与传统算法的本质区别在于算法的可扩展性。换句话说,现在研究的算法在不仅仅能处理小规模数据集,当数据增加时也具有较大范围内的适合。算法的扩展,我理解为两个方面:scale out-纵向扩展以及scale up-横向扩展。纵向扩展最要在算法底层、良好的数据结构设计或者并行设计方面。横向扩展主要指算法的分布式技术实现(自己编写分布式算法或者基于现有分布式框架实现)。这里所说的“大数据”,在不同的挖掘领域(文本、图结构、机器学习、图像)所对应的数据量是不同的。对文本来说,几百万个样本可能就是“大数据”;对机器学习来说,千万个样本,几十维、几百维(MB/GB)就是“大数据”;对大规模图挖掘来说,千万级节点、亿级边(GB),也是“大数据”;对图像数据,百万级图像(TB)完全可以称得上“大数据”。那么,要做算法的可扩展性是不是必须用到并行技术、分布式编程技术?答案是一般需要,但并不绝对。算法如果做到了极致,单台计算机也能处理“大数据”问题,比如:TurboGraph: A Fast Parallel Graph Engine Handing Billion-Scale Graphs in a Single PC. 文章仅仅在一台计算机上利用线程并行(多核)实现了计算机集群完成的工作。有些文章是用MATLAB来完成的实验(Comparing apples to oranges: a scalable solution with heterogeneous hashing、Fast Flux Discrimination for Large-Scale Sparse Nonlinear Classification、Online Chinese Restaurant Process)、有些文章是利用Hadoop集群来完成实验、有些是利用C/JAVA语言编写分布式程序实现、有些是利用多核CPU的多线程并行实现。可见,算法的实现方式不重要,重要的是算法具有scalability。多源数据融合以及挖掘分析也可以称得上大数据挖掘,可能不见得数据集有非常大,但是通过多种数据的融合发现了之前完成不了的事情、或者之前完成效果不好的事情。比如:heterogeneous hashing文章用了两个异构数据集(text、image)进行relation-aware分析。特别是微软亚洲研究院在KDD’13 上的U-Air: When Urban Air Quality Inference Meets Big Data,这篇文章就是融合了5个数据集(气象数据、空气质量数据、POI数据、路网数据、轨迹数据),利用传统的数据挖掘方法进行了融合分析,得到了较好的效果并进行了商业应用。附注:个人认为算法也应该考虑扩展性,在面临数据集增加时,看看是否还会能达到高效地预测结果。

  总结:在大数据研究中,更多的是偏理论算法的研究。可以这样说,数据挖掘本身就是跟数据打交道,在特定情况下(数据集较大时或不断增加时),数据挖掘的任何一个研究点都可能会遇到“大数据”问题。所以,真正需要做的是找准一个问题,利用传统方法进行挖掘,并测试在大规模数据集下传统算法是否可行,如果不可行,提出算法的改进版或者自己动手实现一个新的、具有可扩展性的算法,这就是大数据研究的过程(也包括异构数据融合分析)。

时间: 2024-11-08 22:58:52

数据挖掘研究方向、热点以及对大数据研究的认识的相关文章

彩票APP开发如何利用大数据研究数字规律

现在社会高速发展,如今已经不知不觉的地进入大数据时代,彩票作为一项数字娱×××戏,吸引越来越多人加入,也有越来越多人开始研究开奖的规律,看有没有办法找到开奖的走向.彩票APP开发如今也以大数据为依托,深度解析数据规律,为用户推出更多满意的服务. 互联网时代,各大行业紧跟互联网的脚步,企业和商家与手机软件APP结合,通过手机APP突破新的营销模式,房地产也不例外,既然人们可以通过手机APP网购,那房地产就实现房地产代购,于是,房地产导购APP应运而生.APP开发就找麦鱼科技.联系方式:电话:028

浅析大数据研究常用的软件工具

小编的一个朋友是从事大数据行业工作的,工作发展前景好,薪资待遇高,每次见到他都是非常的得意.然而,近日再看到他的时候,发现他愁眉不展,一问之下才知道,因为对于一个大数据软件工具的错误使用,导致领导对其进行了较严重的惩罚. 如今,大数据日益成为研究行业的重要研究目标.面对其高数据量.多维度与异构化的特点,以及分析方法思路的扩展,传统统计工具已经难以应对.正所谓工欲善其事,必先利其器.众多新的软件分析工具作为深入大数据洞察研究的重要助力,也成为数据科学家所必须掌握的知识技能.然而,现实情况的复杂性决

如何让热点图支持大数据

所谓的热点图,是图1)构建一张灰度图,图2)在每个热点的位置上绘制并叠加形成灰色的热点图,图3)根据颜色表生成热点图.不难看出,最核心的是图2的过程.详情参考<可视化之热点图>. 图1 图2&图3 ? 1强调两处细节 这种思路效率高,缺点就是不够灵活,每个点都是同一个样式,没有考虑该点的半径和权重.创建大小不一的模版(章),每个热点根据自己的半径值选择对应的章就可以,实现思路如下: 半径&模版 权重的不同,是通过盖章的"力度",权重越大,不透明度越大,这样叠

[随笔]一年热点记录,大数据

春节:谁穿了什么,谁唱了什么,什么火? 高考:作文题目是什么,哪里又作弊了. 中秋.端午:中国节日和外国节日,高速是否免费,食品安全. 人生的轮回也许就是这样. 大数据能分析的出来这些么? 商机在哪里,做IT的你,能看得出来吗?能有对应的产品吗? 请根据以上描述,写出五个项目的开题报告及项目建议书.

大数据学习笔记2&#183;互联网搜索中的大数据研究

大规模网络搜索的设计 大规模搜索引擎的逻辑结构 上图来自1998年Google两个创始人发表的论文. crawler:爬虫,从互联网上获取文档信息 index:读取这些信息,并记住哪些单词出现在哪些文档中,称为索引 search:使关键词查询成为可能,并对查询结果进行排序 Google的独特性在于:使用anchor text描述目标文档,并利用文档之间的链接对文档的重要性排序,这就是PageRank. Google搜索的主要数据结构 将大文件设计为虚拟文件 每个页面有三个描述维度: sync同步

大数据和「数据挖掘」是何关系?---来自知乎

知乎用户,互联网 244 人赞同 在我读数据挖掘方向研究生的时候:如果要描述数据量非常大,我们用Massive Data(海量数据)如果要描述数据非常多样,我们用Heterogeneous Data(异构数据)如果要描述数据既多样,又量大,我们用Massive Heterogeneous Data(海量异构数据)--如果要申请基金忽悠一笔钱,我们用Big Data(大数据) 编辑于 2014-02-2817 条评论感谢 收藏没有帮助举报作者保留权利 刘知远,NLPer 4 人赞同 我觉得 大数据

数据挖掘在大数据中的应用综述

*** (上海海事大学 上海 201306) 摘 要: 面对大规模多源异构的数据,数据挖掘的方法不断的得到改善与发展,同时对于数据挖掘体系的完善也提出了新的挑战.针对当前数据挖掘在大数据方面的应用,本文从数据挖掘的各个阶段进行了方法论的总结及应用,主要包括数据准备的方法.数据探索的方法.关联规则方法.数据回归方法.数据分类方法.数据聚类方法.数据预测方法和数据诊断方法.最后还指出类数据挖掘在鲁棒性表达方面的进一步研究. 关键词: 数据挖掘;方法论;大数据;鲁棒性 Application of D

大数据与数据挖掘的相对绝对关系

数据不是信息,而是有待理解的原材料.但有一件事是确定无疑的:当NSA为了从其海量数据中"挖掘"出信息,耗资数十亿改善新手段时,它正受益于陡然降落的计算机存储和处理价格. 麻省理工学院的研究者约翰·古塔格(John Guttag)和柯林·斯塔尔兹(Collin Stultz)创建了一个计算机模型来分析之心脏病病患丢弃的心电图数据.他们利用数据挖掘和机器学习在海量的数据中筛选,发现心电图中出现三类异常者--一年内死于第二次心脏病发作的机率比未出现者高一至二倍.这种新方法能够识别出更多的,无

大数据的五大核心技术,给大数据同行入门研究参考的小知识

21世纪,世界已经进入数据大爆炸的时代,大数据时代已经来临.从商业公司内部的各种管理和运营数据,到个人移动终端与消费电子产品的社会化数据,再到互联网产生的海量信息数据等,每天世界上产生的信息量正在飞速增长.2009年数据信息量达到8 000亿GB,而到2011年达到1.8 ZB.图灵奖获得者Jim Gray提出的“新摩尔定律”:“每18个月全球新增信息量是计算机有史以来全部信息量的总和”,已经得到验证. 大数据的“大”不仅仅体现在数据的海量性,还在于其数据类型的复杂性.随着报表.账单.影像.办公