数据挖掘工具软件Weka学习教程

一、数据格式

理解数据格式后,就可以完全控制数据预处理过程。

1.1 ARFF格式


样例


说明


%整行注释

@relation person

@attribute name string %半行注释

@attribute age numeric

@attribute sex {male,female}

@attribute birthday date "yyyy-MM-dd HH:mm:ss"

@data

"Zhang San",85,male,‘2011-06-10 00:00:00‘

Lisi,?,male,"2011-06-11 00:00:00"

……


关系名,在Explorer界面显示

String 类型(文本挖掘使用)

数值类型(integer,real完全同义)

枚举类型(花括号枚举全部值)

日期类型(日期格式默认)

数据开始标志

(逗号分割数据)

说明:

  1. relation, string, data这些内置关键字无所谓大小写,使用string.equalsIgnoreCase()方法匹配字符串。但数据值严格区分大小写。
  2. weka只解析4中数据类型:字符串、数值、枚举、日期。
  3. 数值型标志numeric、integer、real完全同义。
  4. 枚举类型无关键字,直接花括号扩住所有枚举值。
  5. 日期类型的格式字符串不指定,则默认使用 "yyyy-MM-dd‘T‘HH:mm:ss" (2011-06-10T00:00:00)。
  6. 缺失值用半角问号表示 ? ,不认识 NULL。
  7. 解析arff过程并非逐行读取数据,而是使用java.io.StreamTokenizer 。所以 string,nominal 如果值内没有空格,则不需要用引号包括。空行随便加。

1.2 CSV格式

  1. weka对待csv格式的文件比较粗暴,对第一行指定的属性,假定是数值型,然后在后续读取对应的数据时,尝试解析数值,如果某一个解析失败,就将该属性重新标记为枚举型(无string、date);如果全部数据都能解析成数值,就认为该属性是数值型。

1.3 Arff Viewer

界面:GUI Chooser > Tools > Arff Viewer

[界面截图略]

作用:以表格形式显示数据。并可对数据初步处理。

点击表头对数据排序(单击正序排列、shift+单击逆序排列),然后处理噪声值。对特别大或特别小的数据,手动改为均值(右键表头> get mean)或缺失值(将值删除为空)。

注:csv格式的解析方式是内置的,属性被认为是数值还是枚举,在这里不能更改。

二、 数据理解

2.1 数据集概览

界面:GUI Chooser > Explorer按钮 > Preprocess面板

作用:

1、单属性统计信息浏览。

2、属性剔除。

3、对数据集做预处理(归一化、离散化等)。

2.2 单属性直方图

界面:GUI Chooser > Explorer按钮 > Preprocess面板 > Visualize All

[界面截图略]

作用:仅观察了解数据。

2.3 二维散点图

界面:GUI Chooser > Explorer按钮 > Visualize面板

作用:

1、查看各属性之间的关系,深入理解数据集。

2、进行数据选择(放大散点图后进行)。

2.4 属性选择

界面:GUI Chooser > Explorer按钮 > Select attributes 面板

作用:

1、 查看所有属性对于某一个属性的重要程度(最能区分指定属性的,最重要,一般使用Gain指标)。

三、分类

界面:GUI Chooser > Explorer按钮 > Classify 面板

[界面截图略]

作用:分类。

●属性类型和算法选择

●算法参数

●测试集

●结果显示

四、聚类

界面:GUI Chooser > Explorer按钮 > Cluster 面板

[界面截图略]

作用:聚类。

●算法参数

●聚类模式

●结果显示

五、关联规则

界面:GUI Chooser > Explorer按钮 > Associate 面板

[界面截图略]

由于weka arff格式的限制,其关联规则分析挖掘功能很不实用。类似于背包分析的问题,需要自己写apriori算法。Apriori算法比较耗资源,可使用FP-Tree算法。

六、挖掘模型固化

界面:GUI Chooser > KnowledgeFlow按钮

说明:知识流可以认为是weka内核的一个完全图形化接口,挖掘功能方面与Explorer一样。但这里可以将数据挖掘全过程中的操作用一个流程表示,并且可以保存起来,多次使用(每次使用只需要更改数据集)。

当对某一主题探索出合适的挖掘流程后,可以在这里固化一个挖掘模型,以后多次使用。

七、其他

7.1 Weka的实验界面主要用来在同一个训练集上对比不同的分类算法,可以看作是对挖掘探索的一个封装,控制方面的灵活性不佳。

7.2 命令行界面也是weka内核的一个接口。

时间: 2024-10-14 14:29:00

数据挖掘工具软件Weka学习教程的相关文章

手机串号修改工具软件的使用教程

下面演示一下手机串号模拟工具琢石模拟器如何方便的修改手机串号参数. 如果手机还没安装琢石模拟器,请到官网ZS8K.COM上去下载并按照教程进行激活. 1.首先我们看在没使用琢石模拟器的情况下,手机的串号是多少,可以看到这个机器的串号是空的. 2.打开琢石模拟器,进入虚拟环境中,一键生成一套新的参数,我们可以看到当前的串号IMEI是“12345678900000”. 3.在应用面板中启动串号查询工具 4.可以看到,这次启动查询工具之后,查看到的手机串号IMEI已经变成我们刚修改之后的IMEI值了,

数据挖掘工具R软件与Weka的比较分析

作为数据挖掘常用的两个工具软件,R软件和weka软件各有千秋,本文对这两种数据挖掘软件进行了比较与分析. R软件介绍 R是统计领域广泛使用的一款软件,是一个开放的统计分析和图形显示的程序设计环境,它与S编程语言相似. R 可以看作是贝尔实验室(Bell Laboratories)的Rick Becker,John Chambers和Allan Wilks开发的S语言的一种实现.S语言是一种用来进行数据探索.统计分析.作图的解释型语言.最初S语言的实现版本主要是S-PLUS.S-PLUS是一个商业

WEKA使用教程(界面工具的用法)

WEKA使用教程 目录 1. 简介2. 数据格式3.数据准备4. 关联规则(购物篮分析)5. 分类与回归6. 聚类分析 1. 简介 WEKA的全名是怀卡托智能分析环境(Waikato Environment for Knowledge Analysis),它的源代码可通过http://www.cs.waikato.ac.nz/ml/weka得到.同时weka也是新西兰的一种鸟名,而WEKA的主要开发者来自新西兰. WEKA作为一个公开的数据挖掘工作平台,集合了大量能承担数据挖掘任务的机器学习算法

2019最新Python学习教程(Python学习路线_Python爬虫教程)爬虫工程师必备的10个爬虫工具

2019最新Python学习教程(Python学习路线_Python爬虫教程)爬虫工程师必备的10个爬虫工具 爬虫工程师必备的10个爬虫工具! 最近很多学爬虫的伙伴让推荐顺手的爬虫工具,总结了一下,把这些好用的爬虫工具都跟你们找齐活了! 磨刀不误砍柴工!都知道工欲善其事必先利其器,那么作为经常要和各大网站做拉锯战的爬虫工程师们,更需要利用利用好身边的一切法器,才能更快的攻破对方防线.这里以日常爬虫流程,给大家介绍十款爬虫工具,相信大家掌握以后,工作效率提高是完全没有问题了! 大家也可以看看有你们

开源的数据挖掘工具

分享一下我老师大神的人工智能教程吧.零基础!通俗易懂!风趣幽默!还带黄段子!希望你也加入到我们人工智能的队伍中来!http://www.captainbed.net 本文的主要内容编译自Blaz Zupan和Janez Demsar的一篇论文(Open-Source Tools for Data Mining).我仅仅选择其中的要点和大家共享,同时加入一些个人的点评意见. 此外,对开源的数据挖掘工具有兴趣的同仁,可以关注以下OSDM09这个workshop,它会在PAKDD'09上同时进行,主要

WEKA使用教程(经典教程转载)

http://blog.csdn.net/yangliuy/article/details/7589306 WEKA使用教程(经典教程转载) 标签: lift算法csv数据挖掘class任务 2012-05-22 01:16 80161人阅读 评论(7) 收藏 举报  分类: 数据挖掘(25)  WEKA使用教程 目录 1. 简介2. 数据格式3.数据准备4. 关联规则(购物篮分析)5. 分类与回归6. 聚类分析 1. 简介 WEKA的全名是怀卡托智能分析环境(Waikato Environme

六款强大的开源数据挖掘工具推荐

当今这个大数据时代,数据就等于金钱.随着向一个基于应用的领域过渡,数据则呈现出了指数级增长.然而,百分之八十的数据是非结构化的,因此它需要一个程序和方法来从中提取有用信息,并且将其转换为可理解.可用的结构化形式. 在数据挖掘过程中,有大量的工具可供使用,比如采用人工智能.机器学习,以及其他技术等来提取数据. 以下为您推荐六款的数据挖掘工具: 1.WEKA WEKA 原生的非 Java 版本主要是为了分析农业领域数据而开发的.该工具基于 Java 版本,是非常复杂的,并且应用在许多不同的应用中,包

推荐数据挖掘入门教材《数据挖掘与机器学习 WEKA应用技术与实践》

该书由于去年刚出比较新,所以很难在网上下载到电子书,本人很幸运找到了前两章的电子版,而第二章又是本书的关键,所以建议大家先看看第二章,如果觉的写的好,可以再买书,或寻求电子版的全书,下载前两章请到:http://download.csdn.net/detail/u010968153/8686369 图书简介: 本书借助代表当今数据挖掘和机器学习最高水平的著名开源软件Weka,通过大量的实践操作,使读者了解并掌握数据挖掘和机器学习的相关技能,拉近理论与实践的距离.全书共分8章,主要内容包括Weka

推荐6个非常好的开源数据挖掘工具

1.RapidMiner 该工具是用Java语言编写的,通过基于模板的框架提供先进的分析技术.该款工具最大的好处就是,用户无需写任何代码.它是作为一个服务提供,而不是一款本地软件.值得一提的是,该工具在数据挖掘工具榜上位列榜首. 另外,除了数据挖掘,RapidMiner还提供如数据预处理和可视化.预测分析和统计建模.评估和部署等功能.更厉害的是它还提供来自WEKA(一种智能分析环境)和R 脚本的学习方案.模型和算法. RapidMiner分布在AGPL开源许可下,可以从SourceForge上下