weka聚类预测

> java weka.clusterers.SimpleKMeans -p 1 -l G:\Program\data_Factory\example.model -T G:\Program\data_Factory\save_file_ID2Class.arff

0 1 (0)

1 2 (0)

2 1 (0)

3 3 (57)

4 1 (0)

> java weka.clusterers.SimpleKMeans -l G:\Program\data_Factory\example.model -T G:\Program\data_Factory\save_file_ID2Class.arff

kMeans

======

Number of iterations: 8

Within cluster sum of squared errors: 252.54315798169944

Missing values globally replaced with mean/mode

Cluster centroids:

Cluster#

Attribute    Full Data          0          1          2          3

(200)        (9)      (139)       (29)       (23)

==================================================================

H00               7.66    57.5556     2.9281     3.3793    22.1304

H01              3.265    45.5556     0.1799          0     9.4783

H02              2.015    28.4444     0.1007          0     5.7826

H03               1.96    19.6667     0.2734          0     7.6957

H04              1.505    17.6667     0.3957     0.4828     3.1739

H05               1.13    13.1111          0     0.8621     3.6087

H06              1.855          8     1.1583     2.0345     3.4348

H07               2.49     6.5556     1.0719     5.1724      6.087

H08               3.51     7.5556     0.5899    14.1724     6.1304

H09              5.295    18.5556      0.223    21.8966     9.8261

H10               7.12    23.6667     0.8921         26    14.4783

H11              8.195    25.2222     0.7194    24.7931    25.7826

H12             10.505    20.7778      1.554    29.7241    36.3478

H13             11.245     7.2222     2.3381    30.7241     42.087

H14              10.32     0.3333     4.5396    11.1724     48.087

H15              10.55          0     4.8993     7.2069    53.0435

H16               9.71          0     4.8921     4.5517    49.1304

H17              10.72     5.6667     5.7914     8.0345    45.8696

H18             12.315          0     7.2518    15.6552    43.5217

H19             14.185          0    10.0647    16.2759         42

H20              16.68          0    12.8417    25.2414    35.6087

H21              18.07     4.3333    15.4748    22.7241    33.2609

H22             16.875    15.6667    13.1511    19.4483    36.6087

H23              7.375    14.6667     4.4173     7.5172    22.2174

=== Clustering stats for training data ===

=== Clustering stats for testing data ===

Clustered Instances

1      3 ( 60%)

2      1 ( 20%)

3      1 ( 20%)

来自为知笔记(Wiz)

时间: 2024-11-25 18:52:29

weka聚类预测的相关文章

数据挖掘工具R软件与Weka的比较分析

作为数据挖掘常用的两个工具软件,R软件和weka软件各有千秋,本文对这两种数据挖掘软件进行了比较与分析. R软件介绍 R是统计领域广泛使用的一款软件,是一个开放的统计分析和图形显示的程序设计环境,它与S编程语言相似. R 可以看作是贝尔实验室(Bell Laboratories)的Rick Becker,John Chambers和Allan Wilks开发的S语言的一种实现.S语言是一种用来进行数据探索.统计分析.作图的解释型语言.最初S语言的实现版本主要是S-PLUS.S-PLUS是一个商业

AP聚类算法

一.算法简介 Affinity Propagation聚类算法简称AP,是一个在07年发表在Science上的聚类算法.它实际属于message-passing algorithms的一种.算法的基本思想将数据看成网络中的节点,通过在数据点之间传递消息,分别是吸引度(responsibility)和归属度(availability),不断修改聚类中心的数量与位置,直到整个数据集相似度达到最大,同时产生高聚类中心,并将其余各点分配到相应的聚类中. 二.算法描述 1.相关概念 Exemplar:指的

【Python数据挖掘课程】 三.Kmeans聚类代码实现、作业及优化

这篇文章直接给出上次关于Kmeans聚类的篮球远动员数据分析案例,同时介绍这次作业同学们完成的图例,最后介绍Matplotlib包绘图的优化知识.        前文推荐:       [Python数据挖掘课程]一.安装Python及爬虫入门介绍       [Python数据挖掘课程]二.Kmeans聚类数据分析及Anaconda介绍        希望这篇文章对你有所帮助,尤其是刚刚接触数据挖掘以及大数据的同学,同时准备尝试以案例为主的方式进行讲解.如果文章中存在不足或错误的地方,还请海涵

命令行中的数据科学

目录 前言 XIII 第1章 简介 1 1.1 概述 1 1.2 数据科学就是OSEMN 2 1.2.1 数据获取 2 1.2.2 数据清洗 2 1.2.3 数据探索 3 1.2.4 数据建模 3 1.2.5 数据解释 3 1.3 插入的几章 4 1.4 什么是命令行 4 1.5 为什么用命令行做数据科学工作 6 1.5.1 命令行的灵活性 6 1.5.2 命令行可增强 6 1.5.3 命令行可扩展 7 1.5.4 命令行可扩充 7 1.5.5 命令行无处不在 7 1.6 一个现实用例 8 1.

数据分析的一些概念

目录 一.什么是商业智能(BI) 二.什么是数据仓库(DW) 三.什么是数据挖掘(DM) 四.数据挖掘的数学基础 五.数据挖掘的十大算法 六.数据可视化的工具 七.什么是用户画像 八.什么是埋点 九.数据采集的几种方式 一.什么是商业智能(BI) BI:Business Intelegence,商业智能,基于数据仓库,经过数据挖掘后,得到了商业价值的过程.例如利用数据预测用户购物行为属性商业智能 二.什么是数据仓库(DW) DW:Data Warehouse,数据仓库,数据库的升级概念,一般量更

机器学习:weka中添加自己的分类和聚类算法

不管是实验室研究机器学习算法或是公司研发,都有需要自己改进算法的时候,下面就说说怎么在weka里增加改进的机器学习算法. 一 添加分类算法的流程 1 编写的分类器必须继承 Classifier或是Classifier的子类:下面用比较简单的zeroR举例说明: 2 复写接口 buildClassifier,其是主要的方法之一,功能是构造分类器,训练模型: 3 复写接口 classifyInstance,功能是预测一个标签的概率:或实现distributeForInstance,功能是对得到所有的

weka学习(聚类算法)

聚类算法在数据挖掘里面被称之为无监督学习(unsupervised learning),这是与监督学习(supervised learning)相对的.在它们两者之间还一种叫做半监督学习(semi-supervised learning) 聚类算法的一般过程分为: 1.       读入需预测样本 2.       初始化聚类算法(并设置参数) 3.       使用聚类算法对样本进行聚类 4.       打印聚类结果 实例: package weka2; import java.io.Fil

用 WEKA 进行数据挖掘 ——第一章:简介

1.简介数据挖掘.机器学习这些字眼,在一些人看来,是门槛很高的东西.诚然,如果做算法实现甚至算法优化,确实需要很多背景知识.但事实是,绝大多数数据挖掘工程师,不需要去做算法层面的东西.他们的精力,集中在特征提取,算法选择和参数调优上.那么,一个可以方便地提供这些功能的工具,便是十分必要的了.而weka,便是数据挖掘工具中的佼佼者.Weka的全名是怀卡托智能分析环境(Waikato Environment for Knowledge Analysis),是一款免费的,非商业化的,基于JAVA环境下

weka数据挖掘

基础知识: 数据挖掘:将大量数据转变为有实际意义的模式和规则,分为两种:直接的和间接的 数据挖掘的最终目标就是要创建一个模型,这个模型可改进您解读现有数据和将来数据的方式. 数据挖掘的核心就是将正确的模型应用于数据. 第一种技术是回归,用来基于其他的示例数据预测一个数值输出(比如房屋价值). 第二种技术是分类(即分类树或决策树),用来创建一个实际的分支树来预测某个未知数据点的输出值. 第三种技术是群集,可用它来创建数据组(群集)并从中识别出趋势和其他规则 第四种技术是最近邻,最近邻(也即 Col