Weka的运用

什么是Weka?

Waikato Environment for Knowledge Analysis(怀卡托智能分析环境)取单词首字母简称Weka

It’s a data mining/machine learning tool developed by Department of Computer Science, University of Waikato, New Zealand.

Weka is also a bird found only on the islands of New Zealand.

下载网址

http://www.cs.waikato.ac.nz/~ml/weka/index.html

Support multiple platforms (written in java):

Windows, Mac OS X and Linux

Main Features:

49 data preprocessing tools

76 classification/regression algorithms

8 clustering algorithms

3 algorithms for finding association rules

15 attribute/subset evaluators + 10 search algorithms for feature selection

Main GUI:

Four graphical user interfaces

“The Explorer” (exploratory data analysis)

“The Experimenter” (experimental environment)

“The KnowledgeFlow” (new process model inspired interface)

Simple CLI 命令行界面(Command Line Interface for batch scripting)

时间: 2024-12-26 01:15:43

Weka的运用的相关文章

Weka学习 -- StringToWordVector 源码学习(1)

代码整个执行流程 参数设置 input数据,设置数据格式 batchFinished(),处理数据(Tokenzier,Stemming,Stopwords) determineDictionary();  统计计算(TF,IDF) 归一化 output 一些变量和方法的作用 m_Dictionary , m_DocsCounts  变量与 m_OutputCounts变量 意义 public TreeMap m_Dictionary = new TreeMap(); //TreeMap类型成员

Weka 3: Data Mining Software in Java

官方网站: Weka 3: Data Mining Software in Java   相关使用方法博客: WEKA使用教程(经典教程转载) Weka初步一.二.三.四 使用Weka进行数据挖掘 一个小时速度入门数据挖掘WEKA(一个完整的小例子)   百度文库: WEKA中文详细教程(全) WEKA 3-5-3 Experimenter 指南 数据挖掘工具(weka教程)

win7(x64)搭建sqlsever2008r,weka环境

1. sqlserver遇到的问题回答 1)sqlsever2008r的express版是其中一个版本,有一个控制界面sqlserver management studio(搞混了sqlserver2008r与sqlserver2008r express with advanced services,导致又装了半个小时). 2)启动服务,更改SERVER,设置端口啊神马的在SqlServer配置管理器中. 3)新建的实例名称要记得,这个在以后设置时可能会用到. 4)sqlserver manag

weka数据挖掘拾遗(三)----再谈如果何生成arff

前一阵子写过一个arff的随笔,但是写完后发现有些啰嗦.其实如果使用weka自带的api,生成arff文件将变成一件很简单的事儿. 首先,可以先把特征文件生成csv格式的.csv格式就是每列数据都用逗号分隔的一种格式.(还有不清楚的googling一下就知道了) 一.首先看下特征文件怎么保存成csv格式. 1.首行为特征名,以逗号分隔. 2.除首行外的行都为数据行,每列数据都是首行对应的值.(可以是字符串,数字) 例: 二.通过weka的api把上面的csv转化成arff格式文件 1.weka代

Weka算法Classifier-meta-AdditiveRegression源码分析

博主最近迷上了打怪物猎人,这片文章拖了很久才开始动笔 一.算法 AdditiveRegression,换个更出名一点的叫法可以称作GBDT(Grandient Boosting Decision Tree)梯度下降分类树,或者GBRT(Grandient Boosting Regression Tree)梯度下降回归树,是一种多分类器组合的算法,更确切的说,是属于Boosting算法. 谈到Boosting算法,就不能不提AdaBoost,参见之前我写的博客,可以看到AdaBoost的核心是级联

Weka算法Clusterers-Xmeans源码分析

</pre><p></p><p><span style="font-size:18px">上几篇博客都是分析的分类器算法(有监督学习),这次就分析一个聚类算法(无监督学习).</span></p><p><span style="font-size:18px"></span></p><p><span style=&quo

Weka算法Classifier-tree-RandomForest源码分析(二)代码实现

RandomForest的实现异常的简单,简单的超出博主的预期,Weka在实现方式上组合了Bagging和RandomTree. 一.RandomForest的训练 构建RandomForest的代码如下: public void buildClassifier(Instances data) throws Exception { // can classifier handle the data? getCapabilities().testWithFail(data); // remove

Weka算法Classifier-tree-J48源码分析(三)ModelSelection

ModelSelection主要是用于选择合适的列对数据集进行分割,结合上一篇J48的主流程,发现用到的ModelSelection有 C45ModelSelection以及BinC45ModelSelection,先来分析C45ModelSelection. 一.C45ModelSelection 首先作为一个ModelSelection接口,实现的主要方法有两个,分别是selectModel(Instances)和selectionModel(Instances,Instances).C45

weka

// remove instances with missing class Instances newData = new Instances(data); newData.deleteWithMissingClass(); m_structure = new Instances(newData, 0); m_Random = new Random(getSeed()); if (m_classifiersToLoad.size() > 0) { m_preBuiltClassifiers.c

WEKA中的数据预处理

数据预处理包括数据的缺失值处理.标准化.规范化和离散化处理. 数据的缺失值处理:weka.filters.unsupervised.attribute.ReplaceMissingValues. 对于数值属性,用平均值代替缺失值,对于nominal属性,用它的mode(出现最多的值)来代替缺失值. 标准化(standardize):类weka.filters.unsupervised.attribute.Standardize.标准化给定数据集中所有数值属性的值到一个0均值和单位方差的正态分布.