7款优秀的开源数据挖掘工具

7款优秀的开源数据挖掘工具

IDMer说道:本文只对几种流行的开源数据挖掘平台进行了检视,比如Weka和R等。如果您想找寻更多的开源数据挖掘软件,可以到KDnuggets和Open Directory上查看。为了评测这些软件,我们用了UCI Machine Learning Repository上的心脏病诊断数据集。

Tanagra

Tanagra (http://eric.univ-lyon2.fr/wricco/tanagra/) 是使用图形界面的数据挖掘软件,采用了类似Windows资源管理器中的树状结构来组织分析组件。Tanagra缺乏高级的可视化能力,但它的强项是统计 分析,提供了众多的有参和无参检验方法。同时它的特征选取方法也很多。

R

R (http://www.r-project.org) 是用于统计分析和图形化的计算机语言及分析工具,为了保证性能, 其核心计算模块是用C、C++和Fortran编写的。同时为了便于使用,它提供了一种脚本语言,即R语言。R语言和贝尔实验室开发的S语言类似。R支持 一系列分析技术,包括统计检验、预测建模、数据可视化等等。在CRAN(http://cran.r-project.org) 上可以找到众多开源的扩展包。

R软件的首选界面是命令行界面,通过编写脚本来调用分析功能。如果缺乏编程技能,也可使用图形界面,比如使用R Commander(http://socserv.mcmaster.ca/jfox/Misc/Rcmdr/)或Rattle(http://rattle.togaware.com)。

YALE (IDMer:现在已经更名为RapidMiner)

YALE (Yet Another Learning Environment, http://rapid-i.com) 提供了图形化界面,采用了类似Windows资源管理器中的树状结构来组织分析组件,树上每个节点表示不同的运算符(operator)。YALE中提供 了大量的运算符,包括数据处理、变换、探索、建模、评估等各个环节。YALE是用Java开发的,基于Weka来构建,也就是说它可以调用Weka中的各 种分析组件。

KNIME

KNIME (Konstanz InformationMiner, http://www.knime.org)是基于Eclipse开发环境来精心开发的数据挖掘工具。无需安装,方便使用(IDMer:呵呵,大家喜欢的绿色版)。和YALE一样,KNIME也是用Java开发的,可以扩展使用Weka中的挖掘算法。和YALE不同点的是,KNIME采用的是类似数据流(data flow)的方式来建立分析挖掘流程(IDMer:这个我喜欢,和SAS EM或SPSS Clementine等商用数据挖掘软件的操作方式类似)。挖掘流程由一系列功能节点 (node)组成,每个节点有输入/输出端口(port),用于接收数据或模型、导出结果。(IDMer:感觉KNIME比Weka的KnowledgeFlow更好用,连接节点时很方便,直接用鼠标拖拽连接端口即可。而Weka中则需要在节点上按鼠标右键,再选择后续节点,比较麻烦,刚开始使用时找了半天才知道怎么连)

KNIME中每个节点都带有交通信号灯,用于指示该节点的状态(未连接、未配置、缺乏输入数据时为红灯;准备执行为黄灯;执行完毕后为绿灯)。在KNIME中有个特色功能——HiLite,允许用户在节点结果中标记感兴趣的记录,并进一步展开后续探索。

Weka

Weka (Waikato Environment for Knowledge Analysis, http://www.cs.waikato.ac.nz/ml/weka/) 可能是名气最大的开源机器学习和数据挖掘软件。高级用户可以通过Java编程和命令行来调用其分析组件。同时,Weka也为普通用户提供了图形化界面,称 为Weka KnowledgeFlow Environment和Weka Explorer。和R相比,Weka在统计分析方面较弱,但在机器学习方面要强得多。在Weka论坛 (http://weka.sourceforge.net/wiki/index.php/Related_Projects) 可以找到很多扩展包,比如文本挖掘、可视化、网格计算等等。很多其它开源数据挖掘软件也支持调用Weka的分析功能。

GGobi

数据可视化是数据挖掘的重要组成部分, GGobi (http://www.ggobi.org)就是用于交互式可视化的开源软件,它使用brushing的方法。GGobi可以用作R软件的插件,或者通过Perl、Python等脚本语言来调用。

Orange

Orange (http://www.ailab.si/orange)是类似KNIME和Weka KnowledgeFlow的数据挖掘工具,它的图形环境称为Orange画布(OrangeCanvas),用户可以在画布上放置分析控件 (widget),然后把控件连接起来即可组成挖掘流程。这里的控件和KNIME中的节点是类似的概念。每个控件执行特定的功能,但与KNIME中的节点 不同,KNIME节点的输入输出分为两种类型(模型和数据),而Orange的控件间可以传递多种不同的信号,比如learners, classifiers, evaluation results, distance matrices, dendrograms等等。Orange的控件不象KNIME的节点分得那么细,也就是说要完成同样的分析挖掘任务,在Orange里使用的控件数量可 以比KNIME中的节点数少一些。Orange的好处是使用更简单一些,但缺点是控制能力要比KNIME弱。

除了界面友好易于使用的优点,Orange的强项在于提供了大量可视化方法,可以对数据和模型进行多种图形化展示,并能智能搜索合适的可视化形式,支持对数据的交互式探索。

Orange的弱项在于传统统计分析能力不强,不支持统计检验,报表能力也有限。Orange的底层核心也是采用C++编写,同时允许用户使用Python脚本语言来进行扩展开发(参见http://www.scipy.org)。

结论

—-

以 上介绍的几款软件都是优秀的开源数据挖掘软件,各有所长,同时也各有缺点。读者可以结合自己的需求来进行选择,或者组合使用多个软件。对于普通用户可以选 用界面友好易于使用的软件,对于希望从事算法开发的用户则可以根据软件开发工具不同(Java、R、C++、Python等)来选择相应的软件。以上这几 款软件(除了GGobi)基本上都提供了我们期望的大部分功能。

(IDMer:我尝试了以上这几种 开源软件,Weka很有名但用起来并不方便,界面也简单了点;RapidMiner现在流行的势头在上升,但它的操作方式和商用软件差别较大,不支持分析 流程图的方式,当包含的运算符比较多的时候就不容易查看了;KNIME和Orange看起来都不错,Orange界面看上去很清爽,但我发现它不支持中 文。我的推荐是KNIME,同时安装Weka和R扩展包。)

时间: 2024-08-26 16:22:44

7款优秀的开源数据挖掘工具的相关文章

六款强大的开源数据挖掘工具推荐

当今这个大数据时代,数据就等于金钱.随着向一个基于应用的领域过渡,数据则呈现出了指数级增长.然而,百分之八十的数据是非结构化的,因此它需要一个程序和方法来从中提取有用信息,并且将其转换为可理解.可用的结构化形式. 在数据挖掘过程中,有大量的工具可供使用,比如采用人工智能.机器学习,以及其他技术等来提取数据. 以下为您推荐六款的数据挖掘工具: 1.WEKA WEKA 原生的非 Java 版本主要是为了分析农业领域数据而开发的.该工具基于 Java 版本,是非常复杂的,并且应用在许多不同的应用中,包

十款优秀的在线JavaScript工具介绍

JavaScript是Web开发者不可或缺的一项技能,它可以为你的网站添加丰富的交互功能和绚丽的视觉效果,以此来增强用户体验. 本文整理了10款非常优秀的在线JavaScript代码工具,涵盖编辑.压缩.美化.调试等功能,随时随地使用,大大节省你的开发成本和时间. 1. jsfiddle.net 在线编辑工具——由HTML编辑器.CSS编辑器.JavaScript编辑器和输出界面4个部分组成,你可以方便地进行代码测试. 2. jsbeautifier.org 在线美化工具——该工具可以处理你的凌

给你推荐10款优秀的 HTML5 动画工具

HTML5 在过去三年快速增长,已经成为 Web 开发人员最喜欢的编程语言之一.强大的编程语言拥有开发更好的网页应用的能力. HTML5 中引入的新技术都非常好,像 Chrome.Firefox.Safari 等许多现代浏览器都已经支持.今天,我们列出了10个优秀的 HTML5 动画制作工具,可以帮助你的工作. 您可能感兴趣的相关文章 Web 前端开发人员和设计师必读精华文章推荐 精心挑选的优秀jQuery Ajax分页插件和教程 12个让人惊叹的的创意的 404 错误页面设计 让网站动起来!1

推荐6个非常好的开源数据挖掘工具

1.RapidMiner 该工具是用Java语言编写的,通过基于模板的框架提供先进的分析技术.该款工具最大的好处就是,用户无需写任何代码.它是作为一个服务提供,而不是一款本地软件.值得一提的是,该工具在数据挖掘工具榜上位列榜首. 另外,除了数据挖掘,RapidMiner还提供如数据预处理和可视化.预测分析和统计建模.评估和部署等功能.更厉害的是它还提供来自WEKA(一种智能分析环境)和R 脚本的学习方案.模型和算法. RapidMiner分布在AGPL开源许可下,可以从SourceForge上下

五款优秀的端口扫描工具

在使用阿里云服务器,搭建阿里云VPC专有网络之后,关闭不必要的端口,并进行验证. 端口摘要: 端口扫描器是一种检测服务器或主机虚拟端口是开启或关闭的工具.端口允许同一台计算机上的不同应用程序同时共享网络资源.连接本地局域网或互联网的计算机运行着许多不同服务,它们监听着常用或不常用的端口.端口数的范围从0到65535,0到1023的端口数最常用,它们中有许多是为FTP.SSH.HTTP.telnet.DNS和NNTP等服务保留的,1024到49151端口是注册端口,49152到65535则分配给动

推荐一款优秀的开源流媒体服务器系统:SRS(Simple RTMP Server)

最近视频流媒体直播的应用很火,各种手机端的直播.美女聊天室.财经直播等等.由于项目的需要,需要寻找一款合适的流媒体直播系统,如果从头开发,显然成本和周期都不能在可接受的范围内.幸运的是,我找到了SRS这款优秀的直播系统,该系统官方地址为:http://www.ossrs.net/srs.release/releases/ 首先不得不提的是:SRS是国人开发,国人开发的开源系统近几年越来越多,是非常令人惊喜的事情,并且有很多非常优秀的,非常令人开心. 另外不得不提的是:SRS的文档非常齐全,特别是

哎呦喂!10款优秀的 HTML5 动画工具

 发表于:2015/7/7  14:57:41 HTML5 在过去三年快速增长,已经成为 Web 开发人员最喜欢的编程语言之一.强大的编程语言拥有开发更好的网页应用的能力. HTML5 中引入的新技术都非常好,像 Chrome.Firefox.Safari 等许多现代浏览器都已经支持.今天,我们列出了10个优秀的 HTML5 动画制作工具,可以帮助你的工作. ™1.Createjs Createjs是与HTML5 canvas元素工作的JavaScript库.该工具是最出名的是创造游戏,生成艺术

开源的数据挖掘工具

分享一下我老师大神的人工智能教程吧.零基础!通俗易懂!风趣幽默!还带黄段子!希望你也加入到我们人工智能的队伍中来!http://www.captainbed.net 本文的主要内容编译自Blaz Zupan和Janez Demsar的一篇论文(Open-Source Tools for Data Mining).我仅仅选择其中的要点和大家共享,同时加入一些个人的点评意见. 此外,对开源的数据挖掘工具有兴趣的同仁,可以关注以下OSDM09这个workshop,它会在PAKDD'09上同时进行,主要

HTML5 常用10款优秀的工具

HTML5发展如火如荼,随着各大浏览器对HTML5技术支持的不断完善以及HTML5技术的不断成熟,未来HTML5必将改变我们创建Web应用程序的方式.今天这篇文章向大家推荐10款优秀的HTML5开发工具,帮助你更高效的编写HTML5应用. 1.Initializr Initializr是制作HTML5网站最好的入门辅助工具,你可以使用提供的特色模板快速生成网站,也可以自定义,Initializr会为你生成代码简洁的可定制的网页模板. 2.HTML5demos 想知道你的浏览器是否支持HTML5