数据挖掘相关免费软件

转载自http://reader.dashuai.net/?p=100

数据清理类工具 
DataWrangler

Google Refine

统计分析类工具

The R Project for Statistical Computing

TimeFlow

数据展现类工具

Google Fusion Tables

Impure

Tableau Public

Many Eyes

VIDI

Zoho Reports

代码帮助类工具

Choosel

Exhibit

地图相关数据展示工具

Quantum GIS (QGIS)

OpenHeatMap

OpenLayers

文本类相关处理工具

IBM Word-Cloud Generator

社交网络类工具

Gephi

NodeXL

数据挖掘有什么用途?数据挖掘和数据仓库之间有什么样的联系?数据挖掘和市场调研、数据分析又有什么样的联系?……

一  扫盲篇

研究结果表明,企业处理的数据每5年就会成倍增长,导致企业数据过度的重复和不一致,如何在这些数据中获取有利信息就促进数据挖掘技术发展。

1、数据挖掘的相关概念

谢邦昌教授在《数据挖掘 clementine应用实物》一书中提到,数据挖掘是指寻找隐藏在数据中的信息(如趋势、特征及相关性)的过程,也就是从数据中挖掘信息或知识KDD(knowledge discovery in databases)。

数据挖掘可以说汇合了以下六个领域:

a 数据库系统-数据仓库和联机分析(OLAP)

b 机器学习

c 统计与数据分析方法

d 可视化

e 数学规划

f 高性能计算

数据挖掘和数据仓库有什么样的联系?我个人的理解是数据仓库的建立是数据挖掘的前提条件,因为数据仓库里的数据通常是整理过的数据,也就是我们通常所说的Clear Data,而从这些有用的数据中找出我们感兴趣或是有价值的信息的过程就是数据挖掘。

2、数据挖掘的应用领域

数据挖掘对每个公司来说都是一个重要的策略性计划,因而将它设为高度机密,所以要调查各公司用数据挖掘到底做什么样的事相当不容易。这里简单的说说数据挖掘的几个常用领域:

a  客户档案管理方面,通常公司都希望找出客户的一些共同特征,希望能借此预测哪些人可能成为他们的客户,以帮助营销人员找到正确的营销对象,以降低营销成本,提高成功率

b  购物篮分析,通常用来帮助零售从业人员了解客户的消费行为,譬如哪些客户会一起购买,哪些客户会购买某种产品后隔段时间会购买另外一种产品,利用数据挖掘,零售从业人员可以更有效的决定进货量或库存量,商品如何排放等等

c  客户关系管理,公司通常可以分析,原本一些属于自己的客户,后来却转变成竞争对象的客户,分析这一部分群体的特征,再根据这些特征到现有客户数据中找出有可能转向的客户,然后设计出相应的方案来留住这一部分客户群体(毕竟找一个新客户的成本要比留住一个原有客户的成本高的多)

除此之外,数据挖掘还运用到其他许多行业,如金融业、电信业、零售业、互联网等等,其常用情况汇总如下:

数据挖掘的应用

以客户为中心

以操作为中心

以研究为中心

终身价值

购物篮分析

档案细分

保留

目标市场

采集

知识门户

交叉销售

活动管理

电子商务

盈利能力分析

定价

欺诈检测

风险评估

投资组合管理

员工离职

现金管理

生产效率

网络性能

制造工艺

组合化学

遗传研究

流行病学

3、数据挖掘的进行步骤及常用分析方法

每个人数据挖掘过程都不一样,但可以肯定的一点是他们大部分时间都花在准备数据阶段,而其他步骤也只是这样一个大致流程:

1)理解数据与进行的工作

2)获取相关知识和技术

3)整合与检查数据

4)去除错误与不一致的数据

5)发展模型与假设

6)实际数据挖掘工作

7)测试与验证所挖掘的数据

8)解释与使用数据

数据挖掘分析方法是利用数据来建立一些模仿真实世界的模型,利用这些模型来描述数据中的模式以及关系,常用的数据挖掘分析方法主要有:

1)用于分类\聚类的分析方法,如:因子分析、判别分析、聚类分析等,除此之外还有决策树(常用分类方法为CART<classification and regression trees>及CHAID<chi-square automatic interaction detector>两种)

2)推算预测分析方法,如回归、时间序列、神经网络等

3)序列规则分析方法,如关联规则、序列规则等

4、主要数据挖掘软件

目前市面上比较常用的数据挖掘软件有不下于30种(当然都是老外开发的,目前为止还没发现国人开发的此类软件),例如MLC++,Clementine,Darwin,Intelligent Miner,SAS data Mining,S-plus,matlab等等。下面简单的介绍几种:

1)SPSS Clementine,SPSS公司发行,此工具结合了多种图形用户接口分析技术,包含神经网络、关联规则及规则生成技术。

2)Oracle Darwin,甲骨文公司发行,其优点是支持多重算法,可在多种主从式架构上执行,服务器端可以是单处理器、同步多处理器或大量平行处理器,定位在中、大范围的执行

3)SAS Enterprise Miner,SAS公司发行,目前数据挖掘市场上的领导者,适用于企业在数据挖掘的发展及整个CRM的决策支持应用

4)IBM Intelligent Miner,IBM公司发行,是市场上最大容量及功能强大的工具,在顾客评定报告中它的整体效能是最好的,定位于企业数据挖掘解决方案的先锋。

二、数据挖掘与市场分析

“统计分析给您以先机,分析报告给您后见之明,数据挖掘给您以洞察”这样一句话来形容市场分析与数据挖掘的关系再确切不过了。然而数据挖掘只是用来帮助业务分析策划人员从数据中发现各种可能的假设,这些假设是否正确,是否有价值还有待确定,为了得到更加确定的答案,企业不得不花费一些时间和经历来验证这些假设,从而导致企业提出调研目的,针对相关假设设计相应的调查问卷,根据调查结果,运用统计分析得出分析报告,从而推出一系列新的发展方案,发展新的客户,回头又继续数据挖掘,形成一个数据挖掘–市场调研–统计分析的良性循环。

除此之外,统计分析还给数据挖掘提高了许多新的分析方法,如神经网络技术应用中的—概率分析网(PLN),挖掘方法上的—贝叶斯网络,遗传算法中的—概率进化算法(PMEA)等等。

三、从事数据挖掘工作需掌握的相关知识

1、数据库技术  数据挖掘是在大量数据中找出自己感兴趣或有用信息的过程,这其中涉及到数据库操作的相关功能,那么掌握一种数据库以上的知识就成了必然,这也是为什么目前国内许多企业数据挖掘从业人员是计算机专业的原因。

2、相关行业知识  也就是前面数据挖掘步骤中有提到相关知识和技术,没有行业背景知识,纯技术做出来的分析报告就好像"无根"之水

3、掌握一种以上的数据挖掘软件  其实许多的数据库也提供了相应的分析功能,比如前面提到的IBM、Oracle 数据挖掘软件

4、相关统计及市场分析知识  没有这些知识做出来的报告可能犯下或多或少的错误,从而使分析结果出现严重的偏差

时间: 2024-10-13 13:42:56

数据挖掘相关免费软件的相关文章

数据挖掘相关知识

因为最近在复习数据挖掘...故百度了解数据挖掘的相关知识... 什么是数据挖掘?? 数据挖掘(英语:Data mining),又译为资料探勘.数据采矿.它是数据库知识发现(英语:Knowledge-Discovery in Databases,简称:KDD)中的一个步骤.数据挖掘一般是指从大量的数据中通过算法搜索隐藏于其中信息的过程.数据挖掘通常与计算机科学有关,并通过统计.在线分析处理.情报检索.机器学习.专家系统(依靠过去的经验法则)和模式识别等诸多方法来实现上述目标. 为什么要进行数据挖掘

数据挖掘相关的10个问题

硬要去区分Data Mining和Statistics的差异其实是没有太大意义的.一般将之定义为Data Mining技术的CART.CHAID或模糊计算等等理论方法,也都是由统计学者根据统计理论所发展衍生,换另一个角度看,Data Mining有相当大的比重是由高等统计学中的多变量分析所支撑.但是为什么Data Mining的出现会引发各领域的广泛注意呢?主要原因在相较于传统统计分析而言,Data Mining有下列几项特性:  1.处理大量实际数据更强势,且无须太专业的统计背景去使用Data

R语言数据挖掘相关包总结-转帖

与数据挖掘有关或者有帮助的R包和函数的集合. 1.聚类 常用的包: fpc,cluster,pvclust,mclust 基于划分的方法: kmeans, pam, pamk, clara 基于层次的方法: hclust, pvclust, agnes, diana 基于模型的方法: mclust 基于密度的方法: dbscan 基于画图的方法: plotcluster, plot.hclust 基于验证的方法: cluster.stats 2.分类 常用的包: rpart,party,rand

Linux相关免费软件下载链接地址

centos搜狐下载地址:http://mirrors.sohu.com/centos/ 远程连接工具putty下载地址:www.chiark.greenend.org.uk/~sgtatham/putty/download.html

数据挖掘相关

http://www.sogou.com/labs/dl/q.html   搜狗提供的web日志 http://blog.csdn.net/discxuwei/article/details/5769480  一些论文

数据挖掘相关博客

Machine Learning in Action.Spark http://www.cnblogs.com/kobedeshow/

【Python数据挖掘课程】六.Numpy、Pandas和Matplotlib包基础知识

前面几篇文章采用的案例的方法进行介绍的,这篇文章主要介绍Python常用的扩展包,同时结合数据挖掘相关知识介绍该包具体的用法,主要介绍Numpy.Pandas和Matplotlib三个包.目录:        一.Python常用扩展包        二.Numpy科学计算包        三.Pandas数据分析包        四.Matplotlib绘图包 前文推荐:       [Python数据挖掘课程]一.安装Python及爬虫入门介绍       [Python数据挖掘课程]二.K

数据挖掘与数据仓库之间的区别

数据挖掘技术是经由自动或半自动的方法探勘及分析大量的资料,以创建有效的模型及规则,而企业通过数据挖掘可以更加了解他们的客户,进而改进他们的行销.业务及客服的运作. 数据挖掘是数据仓库的一种重要运用.基本上,它是用来将你的资料中隐藏的资讯挖掘出来,所以 Data Mining 其实是所谓的 Knowledge Discovery 的一部份,Data Mining 使用了许多统计分析与 Modeling 的方法,到资料中寻找有用的特征(Patterns)以及关连性(Relationships). K

数据挖掘和数据仓库之间的区别

数据挖掘技术是经由自动或半自动的方法探勘及分析大量的资料,以创建有效的模型及规则,而企业通过数据挖掘可以更加了解他们的客户,进而改进他们的行销.业务及客服的运作. 数据挖掘是数据仓库的一种重要运用.基本上,它是用来将你的资料中隐藏的资讯挖掘出来,所以 Data Mining 其实是所谓的 Knowledge Discovery 的一部份,Data Mining 使用了许多统计分析与 Modeling 的方法,到资料中寻找有用的特征(Patterns)以及关连性(Relationships). K