K-Means算法Demo

简介：本Demo是参照这个网站上的Demo自己用Java实现的。将Java打包为Jar，再将Jar转为exe，源代码及程序Demo下载请点我。

K-Means算法简介

　　我尽量用通俗易懂但不规范的语言来描述K-Means算法。

　　K-eans算法是数据挖掘十大算法之一，是一种聚类算法，也是最简单的无监督学习（unsupervised learning）算法之一。

　　假设有一个元素集合，我们的目标是将该集合中的元素划分成K个簇（就是K个部分），每个簇内的元素相似度较高，不同簇的元素相似度较低（正所谓物以类聚，人以群分）。

　　而K-Means算法就是实现这样一个目标的算法。

　　先看Demo，会有直观的了解。

K-Means算法步骤

　　因为要做可视化界面，所以我们现在只讨论二维的情况，即每个元素用2个数表示。

　　假如我们的元素集合是平面上的N个点，计算相似度用的是两点之间的欧氏距离（当然也可以使用其他距离公式，相关距离公式见下部分），两点距离越短则表示相似度越高。那么算法步骤大概是这个样子：

　　Step 1. 随机产生K个点，作为K个簇的中心（注意K<=N）

　　Step 2. 对N个点中的每一个点，计算该点离哪个中心最近，离哪个中心最近就属于哪个簇。　　

　　Step 3. 更新每个簇的中心（取簇中的元素的坐标的均值）

　　Step 4. 重复Step2和Step3直到所有簇的中心不再改变。

Java实现代码（带图形界面）

import java.awt.*;
import java.awt.event.*;
import javax.swing.*;
import javax.swing.JFrame;
import javax.swing.JPanel;
import java.util.Random;
import java.applet.*;

class PaintovalPane extends JPanel
{
    /*K-Means*/
    int K = 5;        //K个中心
    int N = 50;        //N个点
    int D = 2;        //二维元素

    Random rand = new Random();

    class Point
    {
        Point()
        {
            initial();
        }

        void initial()
        {
            /*初始化为[0,600)的随机点，簇编号为-1，无意义*/
            for (int i = 0; i < D; ++i)
                x[i] = rand.nextDouble()*600;
            clusterNum = -1;
        }
        double x[] = new double[D];    //坐标
        int clusterNum;                //簇编号
    };

    Point p[];                //数据点
    Point centroid[];        //中心点
    Point oldCentroid[];    //上一次的中心点，用于确定中心点是否不再改变
    Color colors[];            //表示不同簇的颜色值
    /*欧式距离*/
    double Euclidean(Point p1, Point p2)
    {
        double dis = 0;

        for (int i = 0; i < D; ++i)
            dis += (p1.x[i]-p2.x[i])*(p1.x[i]-p2.x[i]);
        return Math.sqrt(dis);
    }
    /*更新中心点*/
    void updateCentroid(int clusterNum)
    {
        for (int i = 0; i < D; ++i)
            centroid[clusterNum].x[i] = 0;

        int clusterSize = 0;

        for (int i = 0; i < N; ++i)
            if (p[i].clusterNum == clusterNum)
            {
                clusterSize++;

                for (int j = 0; j < D; ++j)
                    centroid[clusterNum].x[j] += p[i].x[j];
            }

        if (clusterSize == 0)
            return;

        for (int i = 0; i < D; ++i)
            centroid[clusterNum].x[i] /= (double)clusterSize;
    }

    /*更新中心点的接口函数*/
    void updateCentroids()
    {
        for (int i = 0; i < K; ++i)
            updateCentroid(i);
    }

    /*分配数据点到哪个簇*/
    void assignPoint(int x)
    {
        double minDis = 99999999;
        int minIndex = 1;
        for (int i = 0; i < K; ++i)
        {
            double curDis = Euclidean(p[x], centroid[i]);
            if (curDis < minDis)
            {
                minDis = curDis;
                minIndex = i;
            }
        }
        p[x].clusterNum = minIndex;
    }

    /*分配数据点到哪个簇的接口函数*/
    void assign()
    {
        for (int i = 0; i < N; ++i)
            assignPoint(i);
    }

    /*判断2点是否同一个点*/
    Boolean samePoint(Point p1, Point p2)
    {
        if (p1.clusterNum != p2.clusterNum)
            return false;
        for (int i = 0; i < D; ++i)
            if (p1.x[i] != p2.x[i])
                return false;
        return true;
    }

    /*判断算法是否终止*/
    Boolean stop()
    {
        /*如果每一个中心点都与上一次的中心点相同，则算法终止，否则更新oldCentroid*/
        for (int i = 0; i < K; ++i)
            if (!samePoint(oldCentroid[i], centroid[i]))
            {
                for (int j = 0; j < K; ++j)
                    copy(oldCentroid[j],centroid[j]);
                return false;
            }
        return true;
    }

    /*令p1 = p2*/
    void copy(Point p1, Point p2)
    {
        p1.clusterNum = p2.clusterNum;
        for (int i = 0; i < D; ++i)
            p1.x[i] = p2.x[i];
    }
    /*初始化*/
    void init()
    {
        /*分配内存*/
        p = new Point[N];
        centroid = new Point[K];
        oldCentroid = new Point[K];
        colors = new Color[K];

        for (int i = 0; i < N; ++i)
        {
            p[i] = new Point();
            p[i].initial();
        }

        for (int i = 0; i < K; ++i)
        {
            centroid[i] = new Point();
            oldCentroid[i] = new Point();
            centroid[i].initial();
            oldCentroid[i].initial();
            copy(oldCentroid[i],centroid[i]);
            colors[i] = new Color(rand.nextInt(255), rand.nextInt(255), rand.nextInt(255));
        }
    }

    /*默认构造函数，调用初始化函数*/
    PaintovalPane()
    {
        init();
    }

    /*重载绘图函数*/
    public void paintComponent(Graphics g)
    {
        super.paintComponent(g);
        setBackground(Color.white);
        /*画数据点（圆形），根据簇编号来确定颜色*/
        for (int i = 0; i < N; ++i)
        {
            int x = (int)p[i].x[0], y = (int)p[i].x[1];

            if (p[i].clusterNum == -1)
                g.setColor(Color.black);
            else
                g.setColor(colors[p[i].clusterNum]);

            g.fillOval(x, y, 15, 15);
        }
        /*画中心点（矩形），根据簇编号来确定颜色*/
        for (int i = 0; i < K; ++i)
        {
            int x = (int)centroid[i].x[0], y = (int)centroid[i].x[1];

            g.setColor(colors[i]);

            g.fillRect(x, y, 15, 15);
        }
    }
}

class Drawing extends JFrame
{
    /*声明一系列组件*/
    JButton jButton1 = new JButton("Start");
    JButton jButton2 = new JButton("Step");
    JButton jButton3 = new JButton("Run");
    JLabel label1 = new JLabel("Points");
    JLabel label2 = new JLabel("Clusters");
    JTextField textField1 = new JTextField("This is buffer for text", 15);
    JTextField textField2 = new JTextField("This is buffer for text", 15);
    JPanel jPanel = new JPanel();
    PaintovalPane paint = new PaintovalPane();
    Drawing()
    {
        setTitle("K-Means");
        setVisible(true);
        setDefaultCloseOperation(EXIT_ON_CLOSE);
        setSize (660,710);
        textField1.setText(String.valueOf(paint.N));
        textField2.setText(String.valueOf(paint.K));
        /*Start按钮的监听器*/
        jButton1.addActionListener(new ActionListener(){
            public void actionPerformed(ActionEvent ae)
            {
                int input1 = Integer.parseInt(textField1.getText());
                int input2 = Integer.parseInt(textField2.getText());

                /*判断输入是否合法*/
                if (input1 > 500 || input1 <= 0)
                {
                    JOptionPane.showMessageDialog(null, "Please input the number between 1-500");
                }
                else if (input2 > input1 || input2 <= 0)
                {
                    JOptionPane.showMessageDialog(null, "Please input the number between 1-Points");
                }
                else
                {
                    paint.N = input1;
                    paint.K = input2;
                    paint.init();
                    paint.repaint();
                    jButton2.setText("Step");
                    jButton2.setEnabled(true);
                    jButton3.setText("Run");
                    jButton3.setEnabled(true);
                }
            }
        });
        /*Step按钮的监听器*/
        jButton2.addActionListener(new ActionListener(){
            public void actionPerformed(ActionEvent ae)
            {

                paint.assign();

                paint.updateCentroids();

                /*算法终止的话让按钮变灰并提示算法结束*/
                if (paint.stop())
                {
                    jButton2.setText("End");
                    jButton2.setEnabled(false);
                    jButton3.setText("End");
                    jButton3.setEnabled(false);
                }

                paint.repaint();
            }
        });
        /*Run按钮的监听器*/
        jButton3.addActionListener(new ActionListener(){
            public void actionPerformed(ActionEvent ae)
            {
                do
                {
                    paint.assign();

                    paint.updateCentroids();

                    paint.repaint();
                }
                while(!paint.stop());

                /*算法终止的话让按钮变灰并提示算法结束*/
                jButton2.setText("End");
                jButton2.setEnabled(false);
                jButton3.setText("End");
                jButton3.setEnabled(false);
            }
        });
        jPanel.add(label1);
        jPanel.add(textField1);
        jPanel.add(label2);
        jPanel.add(textField2);
        jPanel.add(jButton1);
        jPanel.add(jButton2);
        jPanel.add(jButton3);
        jPanel.setBackground(new Color(1,255,1));
        add(BorderLayout.NORTH,jPanel);
        add(BorderLayout.CENTER, paint);
    }
}

public class Hello extends Applet
{
    public static void main(String args[])
    {
        Drawing d = new Drawing();
    }
}

C++实现代码

#include <iostream>
#include <cmath>
#include <ctime>
#include <cstdlib>
using namespace std;

#define K 10    //簇数
#define N 200    //点数
#define D 2        //维数

/*产生0-100的随机数*/
double random()
{
    return 100*(double)rand()/(double)RAND_MAX;
} 

class Point
{
    public:

    Point()
    {
        for (int i = 0; i < D; ++i)
            x[i] = random();
        clusterNum = -1;
    }

    double x[D];    //坐标
    int clusterNum;    //所属簇的编号
};

Point p[N];
Point centroid[K];
Point oldCentroid[K];

/*欧式距离*/
double Euclidean(Point p1, Point p2)
{
    double dis = 0;

    for (int i = 0; i < D; ++i)
        dis += (p1.x[i]-p2.x[i])*(p1.x[i]-p2.x[i]);
    return sqrt(dis);
}

/*重新计算编号为clusterNum的簇的重心*/
void updateCentroid(int clusterNum)
{
    for (int i = 0; i < D; ++i)
        centroid[clusterNum].x[i] = 0;

    int clusterSize = 0;

    for (int i = 0; i < N; ++i)
        if (p[i].clusterNum == clusterNum)
        {
            clusterSize++;

            for (int j = 0; j < D; ++j)
                centroid[clusterNum].x[j] += p[i].x[j];
        }

    if (clusterSize == 0)
        return;

    for (int i = 0; i < D; ++i)
        centroid[clusterNum].x[i] /= (double)clusterSize;
}

void updateCentroids()
{
    for (int i = 0; i < K; ++i)
        updateCentroid(i);
}
/*计算某点属于哪一簇*/
void assignPoint(Point &point)
{
    double minDis = INT_MAX;
    int minIndex = 1;
    for (int i = 0; i < K; ++i)
    {
        double curDis = Euclidean(point, centroid[i]);
        if (curDis < minDis)
            minDis = curDis, minIndex = i;
    }
    point.clusterNum = minIndex;
}

void assign()
{
    for (int i = 0; i < N; ++i)
        assignPoint(p[i]);
}
/*比较是否相同的两个点，注意double的比较有时候可能出现问题*/
bool samePoint(Point p1, Point p2)
{
    if (p1.clusterNum != p2.clusterNum)
        return false;
    for (int i = 0; i < D; ++i)
        if (p1.x[i] != p2.x[i])
            return false;
    return true;
}

/*判断重心是否不变，若重心不再变化，算法终止*/
bool stop()
{
    for (int i = 0; i < K; ++i)
        if (!samePoint(oldCentroid[i], centroid[i]))    //若算法未停止，则更新oldCentroid
        {
            for (int j = 0; j < K; ++j)
                oldCentroid[j] = centroid[j];
            return false;
        }
    return true;
}

void init()
{
    srand(time(0));

    /*如果类内成员是基本类型，则默认的operator=可以完成简单的赋值功能*/
    for (int i = 0; i < K; ++i)
        oldCentroid[i] = centroid[i];
}

int main()
{
    init();
    do
    {
        assign();

        updateCentroids();
    }
    while(!stop());
}

ps.一点收获，C++中，自定义类提供的默认operator=是可以完成基本数据类型的赋值的，但是Java的operator=并不是简单赋值，而是=左边的类变成=右边的类引用。

程序效果

　　按下Start

　　按下Step

　　按下Run

将Java程序转为exe

　　为了能够让Java程序到处跑（不是每个电脑都装有Java虚拟机的），决定将Java程序转为exe。

　　步骤如下：

　　1、将.java编译为.class

进入cmd，cd切换到.java文件目录下，执行javac Hello.java，产生Hello.class

　　2、将相关的.class打包为一个.jar文件

　　继续在当前目录下，执行jar cvf Hello.jar *.class，产生Hello.jar

　　注意，此时Hello.jar是不能直接执行的，因为缺少入口函数。我们用360压缩打开Hello.jar，可以看到有一个META-INF文件夹，里面有一个MANIFEST.MF文件，用笔记本打开，在最后面添加Main-Class: Hello。（注意1，Hello是我自己的入口函数所在的类；注意2，Main-Class:后面有空格）。这个时候.jar文件应该可以用java虚拟机执行了。

　　3、利用软件j2ewiz.exe将.jar文件转为.exe

距离公式

　　1）Minkowski Distance（闵可夫斯基）——λ可取任意值，可以是负数，也可以是正数，或是无穷大。

　　2）Euclidean Distance（欧氏距离）——也就是第一个公式λ=2的情况，高中学过的最基本的平面上两点的距离公式。

　　3）CityBlock Distance（曼哈顿距离）——也就是第一个公式λ=1的情况。

　　如下图，绿色代表欧氏距离，也就是直线距离；而红色、蓝色和黄色代表等价的曼哈顿距离。

参考资料

算法杂货铺——k均值聚类(K-means)

K-Means算法Demo

时间： 2024-12-20 07:49:26

K-Means算法Demo的相关文章

K－means算法

K-means算法很简单,它属于无监督学习算法中的聚类算法中的一种方法吧,利用欧式距离进行聚合啦. 解决的问题如图所示哈:有一堆没有标签的训练样本,并且它们可以潜在地分为K类,我们怎么把它们划分呢? 那我们就用K-means算法进行划分吧. 算法很简单,这么做就可以啦: 第一步:随机初始化每种类别的中心点,u1,u2,u3,--,uk; 第二步:重复以下过程: 然后 ,就没有然后了,就这样子. 太简单, 不解释.

从K近邻算法、距离度量谈到KD树、SIFT+BBF算法

从K近邻算法.距离度量谈到KD树.SIFT+BBF算法从K近邻算法.距离度量谈到KD树.SIFT+BBF算法前言前两日,在微博上说:“到今天为止,我至少亏欠了3篇文章待写:1.KD树:2.神经网络:3.编程艺术第28章.你看到,blog内的文章与你于别处所见的任何都不同.于是,等啊等,等一台电脑,只好等待..”.得益于田,借了我一台电脑(借他电脑的时候,我连表示感谢,他说“能找到工作全靠你的博客,这点儿小忙还说,不地道”,有的时候,稍许感受到受人信任也是一种压力,愿我不辜负大家对我的信任)

DM里的K均值算法

1.Preface 因为一直在做的是聚类算法的研究,算是总结了一些心得,这里总结些知识性与思路性的东西,我想在其他地方也是很容易的找到类似的内容的.毕竟,世界就是那么小. 声明:本文比较不适合没有DM基础的人来阅读.我只是胡乱的涂鸦而已 2.聚类算法在DM里的聚类算法里,有基于划分的算法,基于层次的算法,基于密度的算法,基于网格的算法,基于约束的算法. 其中每一种基于的算法都会衍生出一至几种算法,对应的每一种算法不管在学术界还是工业界都存在着许多的改进的算法这里想介绍的是基于基于划分的算法里

k均值算法

import matplotlib.pyplot as plt import numpy as np import time from django.template.defaultfilters import center def loadDataSet(fileName): dataMat=[] fr=open(fileName) for line in fr.readlines(): curLine=line.strip().split('\t') fltLine=map(float,cu

『cs231n』作业1问题1选讲_通过代码理解K近邻算法&交叉验证选择超参数参数

通过K近邻算法探究numpy向量运算提速茴香豆的"茴"字有... ... 使用三种计算图片距离的方式实现K近邻算法: 1.最为基础的双循环 2.利用numpy的broadca机制实现单循环 3.利用broadcast和矩阵的数学性质实现无循环图片被拉伸为一维数组 X_train:(train_num, 一维数组) X:(test_num, 一维数组) 方法验证 import numpy as np a = np.array([[1,1,1],[2,2,2],[3,3,3]]) b

K 近邻算法

声明: 1,本篇为个人对<2012.李航.统计学习方法.pdf>的学习总结,不得用作商用,欢迎转载,但请注明出处(即:本帖地址). 2,因为本人在学习初始时有非常多数学知识都已忘记,所以为了弄懂当中的内容查阅了非常多资料.所以里面应该会有引用其它帖子的小部分内容,假设原作者看到能够私信我,我会将您的帖子的地址付到以下. 3.假设有内容错误或不准确欢迎大家指正. 4.假设能帮到你.那真是太好了. 描写叙述给定一个训练数据集,对新的输入实例.在训练数据集中找到与该实例最邻近的K个实例,若这K个实

聚类算法：K-means 算法(k均值算法)

k-means算法: 第一步:选$K$个初始聚类中心,$z_1(1),z_2(1),\cdots,z_k(1)$,其中括号内的序号为寻找聚类中心的迭代运算的次序号. 聚类中心的向量值可任意设定,例如可选开始的$K$个模式样本的向量值作为初始聚类中心. 第二步:逐个将需分类的模式样本$\{x\}$按最小距离准则分配给$K$个聚类中心中的某一个$z_j(1)$.假设$i=j$时, \[D_j (k) = \min \{ \left\| {x - z_i (k)} \right\|

二分-k均值算法

首先我们都知道k均值算法有一个炒鸡大的bug,就是在很多情况下他只会收敛到局部最小值而不是全局最小值,为了解决这个问题,很多学者提出了很多的方法,我们在这里介绍一种叫做2分k均值的方法. 该算法首先将所有点作为一个簇,然后将该簇一分为二.之后选择其中一个簇继续进行划分,选择哪一个簇进行划分取决于哪个簇的sse是最大值.上述基于sse的划分过程不断重复,直到得到用户指定的簇数目为止. 将所有的点看成一个簇,当粗的数目小于k时,对每一个簇计算总误差,在给定的粗上进行k均值聚类(k=2),计算将该粗一

K近邻算法

1.1.什么是K近邻算法何谓K近邻算法,即K-Nearest Neighbor algorithm,简称KNN算法,单从名字来猜想,可以简单粗暴的认为是:K个最近的邻居,当K=1时,算法便成了最近邻算法,即寻找最近的那个邻居.为何要找邻居?打个比方来说,假设你来到一个陌生的村庄,现在你要找到与你有着相似特征的人群融入他们,所谓入伙. 用官方的话来说,所谓K近邻算法,即是给定一个训练数据集,对新的输入实例,在训练数据集中找到与该实例最邻近的K个实例(也就是上面所说的K个邻居),这K个实例的多数属