weka 学习

weka 学习的相关文章

Weka学习 -- StringToWordVector 源码学习(1)

代码整个执行流程 参数设置 input数据,设置数据格式 batchFinished(),处理数据(Tokenzier,Stemming,Stopwords) determineDictionary();  统计计算(TF,IDF) 归一化 output 一些变量和方法的作用 m_Dictionary , m_DocsCounts  变量与 m_OutputCounts变量 意义 public TreeMap m_Dictionary = new TreeMap(); //TreeMap类型成员

WEKA学习——CSVLoader 实例训练 和 源码分析

简介: Weka支持多种数据导入方式,CSVLoader是能从csv文件加载数据集,也可以保存为arff格式文件.官方介绍文件:Converting CSV to ARFF ( http://weka.wikispaces.com/Converting+CSV+to+ARFF) CSVLoader加载文件,关键是对文件字段属性名称和属性的类型需要自己定义,这样才能得到满足自己需要的数据集. CSVLoader通过options设置,可以设置每一列的属性为Nominal,String,Date类型

weka学习(聚类算法)

聚类算法在数据挖掘里面被称之为无监督学习(unsupervised learning),这是与监督学习(supervised learning)相对的.在它们两者之间还一种叫做半监督学习(semi-supervised learning) 聚类算法的一般过程分为: 1.       读入需预测样本 2.       初始化聚类算法(并设置参数) 3.       使用聚类算法对样本进行聚类 4.       打印聚类结果 实例: package weka2; import java.io.Fil

数据挖掘工具软件Weka学习教程

一.数据格式 理解数据格式后,就可以完全控制数据预处理过程. 1.1 ARFF格式 样例 说明 %整行注释 @relation person @attribute name string %半行注释 @attribute age numeric @attribute sex {male,female} @attribute birthday date "yyyy-MM-dd HH:mm:ss" @data "Zhang San",85,male,'2011-06-1

经常使用的数据挖掘软件/软件包大盘点

本文来自网易云社区. 数据挖掘软件首推R,它的优点在于函数都给你写好了,你只需要知道参数的形式就行了,有时候即使参数形式不对,R也能"智能地"帮你适应.这种简单的软件适合想要专注于业务的人. R作为一款用于统计分析和图形化的计算机语言及分析工具,为了保证性能,其核心计算模块是用C.C++和Fortran编写的.同时为了便于使用,它提供了一种脚本语言,即R语言.R支持一系列分析技术,包括统计检验.预测建模.数据可视化等等. R软件的首选界面是命令性界面,通过编写脚本来调用分析功能.如果缺

weka 集成学习

import java.io.*;import weka.classifiers.*;import weka.classifiers.meta.Vote;import weka.core.Instance;import weka.core.Instances;import weka.core.SelectedTag;import weka.core.converters.ArffLoader;public class test { /** * @param args */ public stat

从零开始学习weka数据挖掘

作为一个免费.公开.开源的数据挖掘工作平台,Weka集合了大量能承担数据挖掘任务的机器学习算法,包括预处理.分类.回归.聚类.关联规则以及在新的交互式界面上的可视化操作等:目前,Weka最新版本为weka-3-7-11,可以利用weka进行大数据的挖掘和分析处理. WEKA的全名是怀卡托智能分析环境(Waikato     Environment for Knowledge Analysis),其源代码可从http://www.cs.waikato.ac.nz/ml/weka/ 得到.同时wek

Weka源码学习-J48(一)-决策树的剪枝

#J48.class 1 /** 2 * Generates the classifier. 3 * 4 * @param instances the data to train the classifier with 5 * @throws Exception if classifier can't be built successfully 6 */ 7 @Override 8 public void buildClassifier(Instances instances) throws E

Ensemble_learning 集成学习算法 stacking 算法

原文:https://herbertmj.wikispaces.com/stacking%E7%AE%97%E6%B3%95 stacked 产生方法是一种截然不同的组合多个模型的方法,它讲的是组合学习器的概念,但是使用的相对于bagging和boosting较少,它不像bagging和boosting,而是组合不同的模型,具体的过程如下:1.划分训练数据集为两个不相交的集合.2. 在第一个集合上训练多个学习器.3. 在第二个集合上测试这几个学习器4. 把第三步得到的预测结果作为输入,把正确的回