玩转大数据:深入浅出大数据挖掘技术(Apriori算法、Tanagra工具、决策树)

一、本课程是怎么样的一门课程(全面介绍)

1.1、课程的背景

“大数据”作为时下最火热的IT行业的词汇,随之而来的数据仓库、数据分析、数据挖掘等等围绕大数据的商业价值的利用逐渐成为行业人士争相追捧的利润焦点。 “大数据” 其实离我们的生活并不遥远,大到微博的海量用户信息,小到一个小区超市的月销售清单,都蕴含着大量潜在的商业价值。

正是由于数据量的快速增长,并且已经远远超过了人们的数据分析能力。因此,科学、商用等领域都迫切需要智能化、自动化的数据分析工具。在这样的背景下,数据挖掘技术应用而生,使得海量数据的分析变得易如反掌。

 1.2、课程内容简介

本课程名为深入浅出数据挖掘技术。所谓“深入”,指得是从数据挖掘的原理与经典算法入手。其一是要了解算法,知道什么场景应当应用什么样的方法;其二是学习算法的经典思想,可以将它应用到其他的实际项目之中;其三是理解算法,让数据挖掘的算法能够应用到您的项目开发之中去。所谓“浅出”,指得是将数据挖掘算法的应用落实到实际的应用中。课程会通过三个不同的方面来讲解算法的应用:一是微软公司的SQL Server与Excel等工具实现的数据挖掘;二是著名开源算法的数据挖掘,如Weka、KNIMA、Tanagra等开源工具;三是利用C#语言做演示来完成数据挖掘算法的实现。

根据实际的引用场景,数据挖掘技术通常分为分类器、关联分析、聚类算法等三大类别。本课程主要介绍这三大算法的经典思想以及部分著名的实现形式,并结合一些商业分析工具、开源工具或编程等方式来讲解具体的应用方法。

1.3、课程大纲

1)     数据挖掘概述与数据

本章讲解了数据挖掘技术的起源、应用场景以及基本的处理方法,并对于数据集、数据等基本的概念做了阐释。

2) 可视化与多维数据分析(实践课)

本章讲解了数据可视化的基本方法,并分别演示了Excel数据透视表与SQL Server Analysis Service对于多维数据的可视化处理。(OLAP)

        3) 分类器与决策树

本章讲解了分类器的基本概念与应用方法,并具体分析了分类器经典算法之一决策树的实现方法。

4) 其他分类器(上)

本章讲解了另外两种经典的分类器算法:基于规则的分类器与基于距离的分类器。

        5) 其他分类器(下)

本章讲解了其他一些常见的分类器算法,如基于距离的分类器的改良算法、贝叶斯分类器、人工神经网络、支持向量机与组合方法等。

        6) 决策树的应用(实践课)

本章演示了利用Weka Explorer、KNIME、Tanagra等开源工具进行的数据挖掘处理。演示中对比了几类数据挖掘算法,如Cart决策树、C4.5决策树、KNIME决策树、简单贝叶斯分类、组合方法(装袋)、人工神经网络、基于规则的分类等。

        7) 关联分析

本章讲解了关联分析的常见算法,即Apriori算法与FP增长算法。

        8) 购物车数据分析(实践课)

本章主要演示了利用微软的解决方案来进行购物车数据的关联分析,包括SQL Service Analysis Service的关联分析与Excel结合SSAS外接程序等方法。最后还利用Weka KnowledgeFlow工具来进行关联分析,以便对比第六章的实践。

        9) 聚类算法

本章讲解了聚类算法的基本原理与常见算法,包含K均值算法、层次聚类、基于密度的聚类算法。

        10)  聚类算法C#源代码实现(实践课)

本章演示如何通过C#源代码实现聚类算法。

1.5、讲师介绍

艾伦:世界500强顶级企业2年云计算工作经验,拥有多年的开发经历,擅长SQL Server数据库并对数据处理有一定的研究,同时也有许多C/C++、C#、Jquery等网页与桌面应用开发经验。

二、为什么需要这么套课程?  

2.1、企业需要什么?

数据挖掘是一门比较新的技术,而数据挖掘的需求并没有完全的挖掘出来。在这样的情形下,我们依然看到很多企业对这样的新技术有着强烈的需求。

(说明:以下企业需求职位均来自于51job.)

职位1、数据库工程师

职位2、软件开发工程师

职位3、市场分析员

更多企业招聘信息请参考:www.51job.com

2.2、课程学习目标(我们提供什么?)

目标一. 可以让学员了解与理解主要的数据挖掘技术。

目标二. 可以让学员迅速掌握各类数据挖掘技术的应用场景。

目标三. 可以让学员迅速掌握常见的数据挖掘工具的使用方法。

目标四. 可以让有一定基础的学员对数据挖掘的代码实现入门。

2.3、课程特色

特点一、讲师讲求深入浅出,从理论、原理出现但是会回归到实际的应用。既照顾到希望提高理解与认识的学员,也照顾到关注实践应用的学员。

特点二、实践应用各有侧重,会从几种不同风格的软件或工具入手来演示。如主流软件公司的数据挖掘产品(微软公司的SQL Service Analysis Service)、开源软件与工具(Weka、KNIME、Tanagra)以及挖掘算法通过C#代码的实现。充分照顾到学员对于应用软件的偏好。

特点三、学习的过程中理论和实践相结合,案例数据具备一定的代表性。并且课程提供所有的案例数据供学员自行修改和调试,以巩固加深学习效果

2.4、课程亮点

亮点一、数据挖掘本身就是前沿的技术,中文的教材、课程数量非常少,如此的课程在国内也不常见。

亮点二、理论与实战相结合,深入浅出。即照顾到基础学员,又照顾到有一定经验的学员,即讲解细致,又一针见血,对技术绝不含糊。

亮点三、代码的实现是一行一行手工敲入,手把手一步步带领学员从入门到精通。

亮点四、实践演示涉及到的软件、工具数目众多,照顾不同使用习惯的学员。

亮点五、整个课程虽短,但“麻雀虽小,五脏倶全”。讲解过程节奏紧凑且内容充实。

3.课程真心不错,我可以学吗?

本课程会涉及到不少数据挖掘的算法。为了更好地理解算法,建议学员可以有一定的基本算法的基础。除了SQL Service Analysis Service的应用实践,大部分的演示都避免了使用数据库来导入数据,因此对于数据库的知识没有特别要求。若学员希望理解最后一章的代码实现,需要具备C#的基本知识。

1、 学习基本算法在Java的实现,推荐您学习

http://www. ibeifeng.com/goods.php?id=329

2、 学习基本算法在C#的实现,推荐您学习

http://www .ibeifeng.com/goods.php?id=69

3、 学习C#的基本知识,推荐您学习

http://www. ibeifeng.com/goods.php?id=7

4.我该怎么学,如何才能学好这门课程,给些建议。

4.1、时间上的安排建议

本课程共10讲,由于内容比较紧凑,建议每天一讲,深入理解课程内容。

4.2、学习要求

建议按照课程进度仔细观看学习,并利用课程的测试数据在相应的软件或工具中自己实践一遍。(由于版权原因,Excel、SQL Server与Visual Studio未提供下载地址,但其他开源软件均提供了下载地址)

如果您有基础,建议学习算法后可以尝试利用代码实现算法,并学会举一反三

4.3、讲师建议(讲师给学员的建议)

建议:

1.最好看完视频之后,抛开视频,仔细想想每个算法的原理与思想;若记忆不深刻,可以回过头看再看下视频,如此反复,达到真正理解和熟练掌握的目的。

2.对于项目实战部分,一定要自己亲自动手做一遍,不要听完就结束。

3.很多知识在开源社区中都有不同的见解,要学会使用搜索引擎,多逛逛相关社区。

4.最后祝您学有所成。

5.学完这门课程后能做什么?

学会该课程后,尝试着问自己几个问题:

1. 在您的生活中、工作中是否有尚未开发的数据?

2. 那些尚未开发的数据与数据挖掘哪一个模型能够匹配?

3. 能否尝试使用数据挖掘的方法来发现一些潜在的规律?

本课程是针对数据、数据分析与挖掘方向,可以帮助您学会数据挖掘的思想,并不限定于某个特定的专业技术。掌握该技术后,一定能使您对于自己的业务数据的分析方法与能力更上一层楼。

6.  学员常见问题:

常见问题一:学习该教程会使用哪些软件?软件有没有随教程提供,没有提供的话,软件的的下载地址,及他们所使用的版本如何?

讲师回答:本课程的软件分为两个部分:

第一个部分是微软公司的Office Excel、SQL Server Analysis Service(SSAS)、Visual Studio。Visual Studio主要用于演示层次聚类算法的C#实现,并不限制于特定的版本。Excel与SQL Server结合所需的版本如下:

Excel 2007与SQL Server 2005

Excel 2007与SQL Server 2008

Excel 2010与SQL Server 2012

第二部分是一些开源软件与工具,课程中会提供工具下载的链接。

常见问题二:学这个课程需要什么基础?

讲师回答:适合对数据分析有兴趣的学员。建议对基本算法、数据库等知识有一定了解。开源软件与工具界面为英文,主要以单词为主,对英文没有特别要求。

常见问题三:这种技术一般可用在什么场合?

讲师回答:本数据是数据分析领域的一个技术点,不是一个特定的工具。首先,数据分析与挖掘的思想可以借鉴到生活中或者工作中的任意数据分析场景;其次,分析与挖掘的方法可以广泛用于市场定位、客户关系分析、项目开发等领域。掌握它后可以让你对数据的把控能力更得心应手,前(钱)途无限。

常见问题四:学完这项技术可以从事的工作岗位有哪些?

讲师回答:越来越多的企业开始进入了大数据的潮流。主要的职位是数据分析专员与数据挖掘工程师,但是很多工作岗位都将数据挖掘作为选拔人才的加分项。相信未来数据挖掘的重要性会随着互联网、云计算的发展进一步地增加。

可以从事的岗位非常多:如:

数据库工程师、软件开发工程师、市场分析专员

时间: 2024-10-15 19:35:38

玩转大数据:深入浅出大数据挖掘技术(Apriori算法、Tanagra工具、决策树)的相关文章

大数据和「数据挖掘」是何关系?---来自知乎

知乎用户,互联网 244 人赞同 在我读数据挖掘方向研究生的时候:如果要描述数据量非常大,我们用Massive Data(海量数据)如果要描述数据非常多样,我们用Heterogeneous Data(异构数据)如果要描述数据既多样,又量大,我们用Massive Heterogeneous Data(海量异构数据)--如果要申请基金忽悠一笔钱,我们用Big Data(大数据) 编辑于 2014-02-2817 条评论感谢 收藏没有帮助举报作者保留权利 刘知远,NLPer 4 人赞同 我觉得 大数据

成都大数据Hadoop与Spark技术培训班

成都大数据Hadoop与Spark技术培训班 中国信息化培训中心特推出了大数据技术架构及应用实战课程培训班,通过专业的大数据Hadoop与Spark技术架构体系与业界真实案例来全面提升大数据工程师.开发设计人员的工作水平,旨在培养专业的大数据Hadoop与Spark技术架构专家,更好地服务于各个行业的大数据项目开发和落地实施. 2015年近期公开课安排:(全国巡回开班) 08月21日——08月23日大连 09月23日——09月25日北京 10月16日——10月18日成都 11月27日——11月2

网易大数据平台的Spark技术实践

网易大数据平台的Spark技术实践 作者 王健宗 网易的实时计算需求 对于大多数的大数据而言,实时性是其所应具备的重要属性,信息的到达和获取应满足实时性的要求,而信息的价值需在其到达那刻展现才能利益最大化,例如电商网站,网站推荐系统期望能实时根据顾客的点击行为分析其购买意愿,做到精准营销. 实时计算指针对只读(Read Only)数据进行即时数据的获取和计算,也可以成为在线计算,在线计算的实时级别分为三类:Real-Time(msec/sec级).Near Real-Time(min/hours

大数据用到哪些技术?

原地址:https://blog.51cto.com/12306609/2095719 大数据是对海量数据进行存储.计算.统计.分析处理的一系列处理手段,处理的数据量通常是TB级,甚至是PB或EB级的数据,这是传统数据处理手段所无法完成的,其涉及的技术有分布式计算.高并发处理.高可用处理.集群.实时性计算等,汇集了当前IT领域热门流行的IT技术. 想要学好大数据需掌握以下技术: 1. Java编程技术 Java编程技术是大数据学习的基础,Java是一种强类型语言,拥有极高的跨平台能力,可以编写桌

读<大数据日知录:架构与算法>有感

前一段时间, 一个老师建议我可以学学 '大数据' 和 '机器学习', 他说这必然是今后的热点, 学会了, 你就是香饽饽.在此之前, 我对大数据, 机器学习并没有很深的认识, 总觉得它们是那么的缥缈, 高不可攀, 也没想着深入学习.之后, 一次偶然的机会, 在csdn官方博客上看到了这样的一个活动 [置顶] 话题讨论&征文--谈论大数据时我们在谈什么 于是, 从下载试读样章, 到正式读书, 开始了学习大数据的过程... 到今天, 差不多两周过去了, 马马虎虎过了一遍, 感触颇多. 下面简单评价下我

蔡先生论道大数据之一 , 大数据由来

我记得早在2001年,Gartner公司的一份研究报告首次出现"大数据(Big Data)"概念的提法.但是到今天业内对"大数据"一词的定义说法不一,但越来越多的研究机构和网络媒体开始关注它.大数据正成为继云计算之后新的热词.同云计算一样,大数据虽然也看不见摸不到,却与今天的IT技术发展如影随形,已经深入到当前的信息生产.加工.交换过程之中,我们已经享受到的某些信息服务,如在社交网站看到的是自己想关注甚至是感兴趣的广告而看不到不想关注的广告,这其实是大数据技术的功劳

不要让大数据成大窥探

上段时间万维网之父Sir Tim Berners-Lee出席一活动,就互联网隐私.大数据谈了一些个人看法.他称,提高对用户隐私的保护,对互联网来说很有必要,因为人们有权看清他们的数据将如何被使用.他还表示,提供个人数据访问通道的机制可以促成"富数据"而非"大数据"的结果. 他以个人病例为例进行了说明.他说,个人病例应该能够让医生和亲人看到,但是肯定不应该让保险公司以及其他人看到.对于Sir Tim Berners-Lee的言论和观点,笔者是非常赞同的.借此也顺便&q

究竟多大才算是大数据,大数据怎么学习?

大数据,什么是大数据呢?多大的数据叫大数据?红火一时的数据分析走向了我们,纷纷称不分析数据企业将长久不了,可是究竟什么样的数据才是大数据呢,什么样的数据才是最大的呢? 如果你没有接触过大数据,那么你就不知道大数据究竟有多大,大到什么样的数据才能称之为大数据.那么,根据数据收集的端口,企业端与个人端之间,大数据的数量级别是不同的. 大数据开发学习有一定难度,零基础入门首先要学习Java语言打基础,一般而言,Java学习SE.EE,需要约3个月的时间:然后进入大数据技术体系的学习,主要学习Hadoo

【大数据】大数据时代--网络数据与科学的时代

大数据_大数据时代_大数据概念_网络大数据 随着大数据时代的来临,大数据也吸引了越来越多的关注.网络大数据(http://www.raincent.com)整合了大数据,大数据概念,大数据处理,大数据分析,cdn,cdn加速,idc,网络测量,网络监测,网络安全测量,网站性能监测,行业分析报告,行业研究报告,免费行业报告等服务为一体,力争打造中国最大的网络大数据中心. 这两个词最早出现是在上世纪90年代.按照当时的解释,大科学时代主要是指单打独斗的时代结束了,要搞集团军式的科研.也有一种说法是,