数据挖掘算法之k-means算法

系列文章:数据挖掘算法之决策树算法

[QQ群:
189191838,对算法和C++感兴趣可以进来]

     
k-means算法
可以说是数据挖掘中十大经典算法之一了,属于无监督的学习。该算法由此衍生出了很多类k-means算法,比如k中心点等等,在数据挖掘领域,很多地方都会用到该算法,他能够把相似的一类很好的聚在一起。一类指的是,他们之间的相似度较高,计算相似度的常用度量有欧氏距离、余弦定理等。本算法采用的是欧式距离度量。这个对理解k-means算法不会造成任何实质性的影响。

为了更好的说明k-means算法是把属于一类的对象聚成一个簇的,下面贴两张图,一张是100个数据对象是,K=2的情况【图1】。

另外一张是1000个数据对象,k=3的情况,希望大家看完图能够加深对K-means算法的理解。

[图1
objectNum=100 k=2]

[图2 objectNum=1000 k=3]

k-means算法的中心思想其实就是迭代,通过不断的迭代,使聚类效果达到局部最优,为什么我们说局部最优呢?因为K-means算法的效果的优劣性和最初选取的中心点是有莫大关系的,我们只能在初始中心点的基础上达到局部最优解。

k-means算法的过程如下:

1)从N个文档随机选取K个文档作为质心(即中心点)

2)对剩余的每个文档测量其到每个质心的距离,并把它归到最近的质心的类

3)重新计算已经得到的各个类的质心

4)迭代2~3步直至新的质心与原质心相等或小于指定阈值(我们这里实际上用迭代次数代替了阈值的功能),算法结束

输入:
一个数据集dataset,类个数k

输出:k个小的数据集,也就是K个类。

该算法会有一些缺点主要是:

1、计算量大,不断的迭代,不断的计算,计算量大事在所难免了。

2、K值的指定也是一个难点,很多时候我们并不知道k是多少?

3、只能得到局部最优解,这一点我们在前面已经讨论过了。

算法能够一行行读txt数据,当然其他格式数据也是可以的,稍微改动下即可。相当方便实用。本着开源的方式,附上90%代码:void
produceData(string fileName,int maxNum,int objectNum);方法代码没有附上,该方法用来产生随机数据。如果需要全部源代码请点赞后留下email地址,我将会在第一时间发到你邮箱,不便之处敬请原谅,毕竟写一篇文章也不是那么容易,我只是想看看到底能帮助到多少人,谢谢理解!


#include<iostream>
#include<fstream>
#include<vector>
#include<random>
#include<time.h>
#include<string.h>
using namespace std;
const int maxNum=0x1<<30;
const int repeatMax=100;//控制迭代的上限,这里主要从效率的角度来考虑。一般来说迭代50--100次就能达到很好的效果
const int AttributeCount=2;//数据属性维度.
const int ClusterK=8;//聚成的簇的数量
typedef double AttributeType;
struct Object{//数据项的数据结构
AttributeType attribute[AttributeCount];
};
vector<Object> allObj;//保存所有的数据
Object cluster[1000][ClusterK];//各个簇的数据项,这里假定每个簇的最大量为1000了,可以写成vector的数据结构,
Object oldcenter[ClusterK];//旧的各个中心点
int oldCluObjNum[ClusterK];//旧的各个簇有多少数据量
Object center[ClusterK];//对比旧的中心点
int CluObjNum[ClusterK];//对比旧的各簇的数据量
void getAllobject(ifstream &ifs);//加载所有数据
void kmeans(ifstream &ins);//算法
void produceData(string fileName,int maxNum,int objectNum);//随机产生数据,fileName文件名,maxNum数据的最大数,objectNum数据个数
int cloestCluster(Object obj);//返回当前数据项与哪个簇最近
void initCenter();//初始化各中心点
void updateCluster(int cluK,Object obj);//更新簇结构
bool isChange();//判断迭代之后中心点是否改变,若没有改变可以迭代结束了,得到局部最优解
void copyCenter();//复制到旧的中
void computeCenter();//重新计算中心点
AttributeType Distance(Object obj,Object obj2);//计算两个点之间的距离
int main(){
//produceData("data2.txt",100,50);
ifstream ifs;
ifs.open("data2.txt");
kmeans(ifs);
ifs.close();
system("pause");
}

void kmeans(ifstream &ins){
getAllobject(ins);
initCenter();
for(int i=0;i<ClusterK;i++){
center[i]=allObj[i];
CluObjNum[i]=0;
}
int repeat=0;
while(isChange()&&repeat<repeatMax){//一直迭代,直到中心点不再改变,或者达到迭代的上限
copyCenter();
for(vector<Object>::iterator begin=allObj.begin();begin<allObj.end();begin++){
int closestK=cloestCluster(*begin);
updateCluster(closestK,*begin);
}
computeCenter();
for(int i=0;i<ClusterK;i++){
cout<<"第"<<i<<"个簇,他们之间的中心点是:";
char file[]={‘c‘,‘l‘,‘u‘,‘s‘,‘t‘,‘e‘,‘r‘,static_cast<char>(i+‘0‘),‘.‘,‘t‘,‘x‘,‘t‘,‘\0‘};
ofstream out;
out.open(file,ifstream::trunc);//输入到各个簇的文件中保存
for(int l=0;l<AttributeCount;l++){
cout<<center[i].attribute[l]<<" ";
}
cout<<endl;
for(int m=1;m<=CluObjNum[i];m++){
for(int j=0;j<AttributeCount;j++)
out<<cluster[m][i].attribute[j]<<" ";
out<<endl;
}
cout<<endl;
out.close();
}
cout<<endl;
repeat++;
}
}
void updateCluster(int cluK,Object obj){//把obj更新到cluK簇中,同时项增加1
cluster[CluObjNum[cluK]+1][cluK]=obj;
CluObjNum[cluK]++;
}
void computeCenter(){
for(int i=0;i<ClusterK;i++){
for(int m=0;m<AttributeCount;m++){
double sum=0;
for(int j=0;j<CluObjNum[i];j++){
sum+=cluster[j][i].attribute[m];
}
center[i].attribute[m]=sum/CluObjNum[i];
}
}
}
void copyCenter(){
for(int i=0;i<ClusterK;i++){
oldCluObjNum[i]=CluObjNum[i];
CluObjNum[i]=0;
for(int j=0;j<AttributeCount;j++){
oldcenter[i].attribute[j]=center[i].attribute[j];
}
}
}
void initCenter(){
Object obj;
for(int i=0;i<AttributeCount;i++){
obj.attribute[i]=-1;
}
for(int i=0;i<ClusterK;i++){
oldcenter[i]=obj;
}
}
int cloestCluster(Object obj){
AttributeType sq=maxNum,m=maxNum;
int theCloest=0;
for(int i=0;i<ClusterK;i++){
m=Distance(obj,center[i]);
if(m<sq){
theCloest=i;
sq=m;
}
}
return theCloest;
}
AttributeType Distance(Object obj,Object obj2){
AttributeType dis=0;
for(int i=0;i<AttributeCount;i++){
dis+=(obj.attribute[i]-obj2.attribute[i])*(obj.attribute[i]-obj2.attribute[i]);
}
return dis;
}

bool isChange(){
for(int i=0;i<ClusterK;i++){
for(int j=0;j<AttributeCount;j++)
if(oldcenter[i].attribute[j]!=center[i].attribute[j])
return true;
}
return false;
}
void getAllobject(ifstream &ifs){
while(ifs){
Object obj;
for(int i=0;i<AttributeCount;i++)
ifs>>obj.attribute[i];
allObj.push_back(obj);
}
}

以下提供我的一个数据集运行的最终结果:

版权所有,欢迎转载,但是转载请注明出处:潇一

数据挖掘算法之k-means算法,码迷,mamicode.com

时间: 2024-10-18 00:43:55

数据挖掘算法之k-means算法的相关文章

图说十大数据挖掘算法(一)K最近邻算法

如果你之前没有学习过K最近邻算法,那今天几张图,让你明白什么是K最近邻算法. 先来一张图,请分辨它是什么水果 很多同学不假思索,直接回答:"菠萝"!!! 仔细看看同学们,这是菠萝么?那再看下边这这张图. 这两个水果又是什么呢? 这就是菠萝与凤梨的故事,下边即将用菠萝和凤梨,给大家讲述怎么用一个算法来知道这是个什么水果的过程,也就是什么是K最近邻算法. (给非吃货同学们补充一个生活小常识,菠萝的叶子有刺,凤梨没有.菠萝的凹槽处是黄色的,而凤梨的凹槽处是绿色的,以后千万不要买错哦!!!)

从K近邻算法、距离度量谈到KD树、SIFT+BBF算法

从K近邻算法.距离度量谈到KD树.SIFT+BBF算法 从K近邻算法.距离度量谈到KD树.SIFT+BBF算法 前言 前两日,在微博上说:“到今天为止,我至少亏欠了3篇文章待写:1.KD树:2.神经网络:3.编程艺术第28章.你看到,blog内的文章与你于别处所见的任何都不同.于是,等啊等,等一台电脑,只好等待..”.得益于田,借了我一台电脑(借他电脑的时候,我连表示感谢,他说“能找到工作全靠你的博客,这点儿小忙还说,不地道”,有的时候,稍许感受到受人信任也是一种压力,愿我不辜负大家对我的信任)

基于改进人工蜂群算法的K均值聚类算法(附MATLAB版源代码)

其实一直以来也没有准备在园子里发这样的文章,相对来说,算法改进放在园子里还是会稍稍显得格格不入.但是最近邮箱收到的几封邮件让我觉得有必要通过我的博客把过去做过的东西分享出去更给更多需要的人.从论文刊登后,陆陆续续收到本科生.研究生还有博士生的来信和短信微信等,表示了对论文的兴趣以及寻求算法的效果和实现细节,所以,我也就通过邮件或者短信微信来回信,但是有时候也会忘记回复. 另外一个原因也是时间久了,我对于论文以及改进的算法的记忆也越来越模糊,或者那天无意间把代码遗失在哪个角落,真的很难想象我还会全

用Python从零开始实现K近邻算法

K近邻算法 (或简称kNN)是易于理解和实现的算法,而且是你解决问题的强大工具. http://python.jobbole.com/87407/ 在本教程中,你将基于Python(2.7)从零开始实现kNN算法.该实现主要针对分类问题,将会用鸢尾花分类问题来演示. 这篇教程主要针对Python程序员,或者你可以快速上手Python,并且对如何从零实现kNN算法感兴趣. kNN算法图片,来自Wikipedia,保留所有权利 什么是kNN kNN算法的模型就是整个训练数据集.当需要对一个未知数据实

K近邻算法

1.1.什么是K近邻算法 何谓K近邻算法,即K-Nearest Neighbor algorithm,简称KNN算法,单从名字来猜想,可以简单粗暴的认为是:K个最近的邻居,当K=1时,算法便成了最近邻算法,即寻找最近的那个邻居.为何要找邻居?打个比方来说,假设你来到一个陌生的村庄,现在你要找到与你有着相似特征的人群融入他们,所谓入伙. 用官方的话来说,所谓K近邻算法,即是给定一个训练数据集,对新的输入实例,在训练数据集中找到与该实例最邻近的K个实例(也就是上面所说的K个邻居),这K个实例的多数属

k近邻算法理论(一)

时间 :2014.07.05 地点:基地 ----------------------------------------------------------------------------------- 一.简述 K近邻法(k-nearest neighbor,kNN)是一种基本分类与回归方法.k近邻的输入为实例的特征向量,对应特征空间中的点,输出为实例的类别.k近邻算法的基本思想是:给定训练数据集,实例类别已定,在对目标实例进行分类时,我们根据与目标实例k个最近邻居的训练实例的类别,通过

使用K近邻算法实现手写体识别系统

目录 1. 应用介绍 1.1实验环境介绍 1.2应用背景介绍 2. 数据来源及预处理 2.1数据来源及格式 2.2数据预处理 3. 算法设计与实现 3.1手写体识别系统算法实现过程 3.2 K近邻算法实现 3.3手写体识别系统实现 3.4算法改进与优化 4. 系统运行过程与结果展示 1.应用介绍 1.1实验环境介绍 本次实验主要使用Python语言开发完成,Python的版本为2.7,并且使用numpy函数库做一些数值计算和处理. 1.2应用背景介绍 本次实验实现的是简易的手写体识别系统,即根据

机器学习随笔01 - k近邻算法

算法名称: k近邻算法 (kNN: k-Nearest Neighbor) 问题提出: 根据已有对象的归类数据,给新对象(事物)归类. 核心思想: 将对象分解为特征,因为对象的特征决定了事对象的分类. 度量每个特征的程度,将其数字化. 所有特征值构成元组,作为该对象的坐标. 计算待检测对象和所有已知对象的距离,选择距离最接近的k个已知对象 (k近邻中的k来源于此). 这k个对象中出现次数最多的分类就是待检测对象的分类. 重要前提: 需要有一批已经正确归类了的对象存在.也就是通常说的训练数据. 重

k近邻算法的Python实现

k近邻算法的Python实现 0. 写在前面 这篇小教程适合对Python与NumPy有一定了解的朋友阅读,如果在阅读本文的源代码时感到吃力,请及时参照相关的教程或者文档. 1. 算法原理 k近邻算法(k Nearest Neighbor)可以简称为kNN.kNN是一个简单直观的算法,也是机器学习从业者入门首选的算法.先看一个简单的应用场景. 小例子 设有下表,命名为为表1 电影名称 打斗镜头数量 接吻镜头数量 电影类型 foo1 3 104 爱情片 foo2 2 100 爱情片 foo3 1

02-16 k近邻算法

[TOC] 更新.更全的<机器学习>的更新网站,更有python.go.数据结构与算法.爬虫.人工智能教学等着你:https://www.cnblogs.com/nickchen121/ k近邻算法 k近邻算法(k-nearest neighbors,KNN)是一种基本的分类和回归方法,本文只探讨分类问题中的k近邻算法,回归问题通常是得出最近的$k$个实例的标记值,然后取这$k$实例标记值的平均数或中位数. k近邻算法经常被人们应用于生活当中,比如傅玄曾说过"近朱者赤近墨者黑&quo