EM算法（1）：K-means 算法

目录

EM算法（1）：K-means 算法

EM算法（2）：GMM训练算法

EM算法（3）：EM算法详解

　　　　　　　　　　

　　　　　　　　　　　　　　　　　EM算法（1）： K-means算法

1. 简介

　　K-means算法是一类无监督的聚类算法，目的是将没有标签的数据分成若干个类，每一个类都是由相似的数据组成。这个类的个数一般是认为给定的。

2. 原理

　　假设给定一个数据集$\mathbf{X} = \{\mathbf{x}_1, \mathbf{x}_2,...,\mathbf{x}_N \}$, 和类的个数K。我们的每个类都用一个中心点$\mu_k$表示。每个数据集都应该被归为某一个类，那么我们定义$r_{nk}$:如果$\mathbf{x}_n$属于类k,则$r_{nk}$=1；如果$\mathbf{x}_n$不属于类k，则$r_{nk}$=0。那么我们就可以定义一个误差函数$\mathbf{J}$：

　　　　　　　　　　$\mathbf{J} = \sum_n\sum_kr_{nk}||\mathbf{x}_n - \mu_k||^2$

　　误差函数直观理解为每个数据点离自己类的中心点的距离之和。那么我们的目标就是 min $\mathbf{J}$。我们发现，$\mathbf{J}$中$r_{nk}$和$\mu_k$都是未知的，直接求导的话没有闭式解。所以我们需要换一个方法，这就是所谓的k-keans算法。

　　k-means算法分为两步。第一步，假设各个类的中心$\mu_k$已知，那么所有$r_{nk}$都已知，计算方法采取最近邻原则，即

　　　　　　　　　　$r_{nk} = 1$ if $k = arg\ min_j||\mathbf{x}_n - \mu_j||^2$　　　　　　　

$r_{nk} = 0$ otherwise

　　

时间： 2024-08-24 16:09:18

EM算法（1）：K-means 算法的相关文章

图说十大数据挖掘算法(一)K最近邻算法

如果你之前没有学习过K最近邻算法,那今天几张图,让你明白什么是K最近邻算法. 先来一张图,请分辨它是什么水果很多同学不假思索,直接回答:"菠萝"!!! 仔细看看同学们,这是菠萝么?那再看下边这这张图. 这两个水果又是什么呢? 这就是菠萝与凤梨的故事,下边即将用菠萝和凤梨,给大家讲述怎么用一个算法来知道这是个什么水果的过程,也就是什么是K最近邻算法. (给非吃货同学们补充一个生活小常识,菠萝的叶子有刺,凤梨没有.菠萝的凹槽处是黄色的,而凤梨的凹槽处是绿色的,以后千万不要买错哦!!!)

从K近邻算法、距离度量谈到KD树、SIFT+BBF算法

从K近邻算法.距离度量谈到KD树.SIFT+BBF算法从K近邻算法.距离度量谈到KD树.SIFT+BBF算法前言前两日,在微博上说:“到今天为止,我至少亏欠了3篇文章待写:1.KD树:2.神经网络:3.编程艺术第28章.你看到,blog内的文章与你于别处所见的任何都不同.于是,等啊等,等一台电脑,只好等待..”.得益于田,借了我一台电脑(借他电脑的时候,我连表示感谢,他说“能找到工作全靠你的博客,这点儿小忙还说,不地道”,有的时候,稍许感受到受人信任也是一种压力,愿我不辜负大家对我的信任)

基于改进人工蜂群算法的K均值聚类算法（附MATLAB版源代码）

其实一直以来也没有准备在园子里发这样的文章,相对来说,算法改进放在园子里还是会稍稍显得格格不入.但是最近邮箱收到的几封邮件让我觉得有必要通过我的博客把过去做过的东西分享出去更给更多需要的人.从论文刊登后,陆陆续续收到本科生.研究生还有博士生的来信和短信微信等,表示了对论文的兴趣以及寻求算法的效果和实现细节,所以,我也就通过邮件或者短信微信来回信,但是有时候也会忘记回复. 另外一个原因也是时间久了,我对于论文以及改进的算法的记忆也越来越模糊,或者那天无意间把代码遗失在哪个角落,真的很难想象我还会全

K近邻算法

1.1.什么是K近邻算法何谓K近邻算法,即K-Nearest Neighbor algorithm,简称KNN算法,单从名字来猜想,可以简单粗暴的认为是:K个最近的邻居,当K=1时,算法便成了最近邻算法,即寻找最近的那个邻居.为何要找邻居?打个比方来说,假设你来到一个陌生的村庄,现在你要找到与你有着相似特征的人群融入他们,所谓入伙. 用官方的话来说,所谓K近邻算法,即是给定一个训练数据集,对新的输入实例,在训练数据集中找到与该实例最邻近的K个实例(也就是上面所说的K个邻居),这K个实例的多数属

k近邻算法理论（一）

时间 :2014.07.05 地点:基地 ----------------------------------------------------------------------------------- 一.简述 K近邻法(k-nearest neighbor,kNN)是一种基本分类与回归方法.k近邻的输入为实例的特征向量,对应特征空间中的点,输出为实例的类别.k近邻算法的基本思想是:给定训练数据集,实例类别已定,在对目标实例进行分类时,我们根据与目标实例k个最近邻居的训练实例的类别,通过

使用K近邻算法实现手写体识别系统

目录 1. 应用介绍 1.1实验环境介绍 1.2应用背景介绍 2. 数据来源及预处理 2.1数据来源及格式 2.2数据预处理 3. 算法设计与实现 3.1手写体识别系统算法实现过程 3.2 K近邻算法实现 3.3手写体识别系统实现 3.4算法改进与优化 4. 系统运行过程与结果展示 1.应用介绍 1.1实验环境介绍本次实验主要使用Python语言开发完成,Python的版本为2.7,并且使用numpy函数库做一些数值计算和处理. 1.2应用背景介绍本次实验实现的是简易的手写体识别系统,即根据

机器学习随笔01 - k近邻算法

算法名称: k近邻算法 (kNN: k-Nearest Neighbor) 问题提出: 根据已有对象的归类数据,给新对象(事物)归类. 核心思想: 将对象分解为特征,因为对象的特征决定了事对象的分类. 度量每个特征的程度,将其数字化. 所有特征值构成元组,作为该对象的坐标. 计算待检测对象和所有已知对象的距离,选择距离最接近的k个已知对象 (k近邻中的k来源于此). 这k个对象中出现次数最多的分类就是待检测对象的分类. 重要前提: 需要有一批已经正确归类了的对象存在.也就是通常说的训练数据. 重

用Python从零开始实现K近邻算法

K近邻算法 (或简称kNN)是易于理解和实现的算法,而且是你解决问题的强大工具. http://python.jobbole.com/87407/ 在本教程中,你将基于Python(2.7)从零开始实现kNN算法.该实现主要针对分类问题,将会用鸢尾花分类问题来演示. 这篇教程主要针对Python程序员,或者你可以快速上手Python,并且对如何从零实现kNN算法感兴趣. kNN算法图片,来自Wikipedia,保留所有权利什么是kNN kNN算法的模型就是整个训练数据集.当需要对一个未知数据实

k近邻算法的Python实现

k近邻算法的Python实现 0. 写在前面这篇小教程适合对Python与NumPy有一定了解的朋友阅读,如果在阅读本文的源代码时感到吃力,请及时参照相关的教程或者文档. 1. 算法原理 k近邻算法(k Nearest Neighbor)可以简称为kNN.kNN是一个简单直观的算法,也是机器学习从业者入门首选的算法.先看一个简单的应用场景. 小例子设有下表,命名为为表1 电影名称打斗镜头数量接吻镜头数量电影类型 foo1 3 104 爱情片 foo2 2 100 爱情片 foo3 1

02-16 k近邻算法

[TOC] 更新.更全的<机器学习>的更新网站,更有python.go.数据结构与算法.爬虫.人工智能教学等着你:https://www.cnblogs.com/nickchen121/ k近邻算法 k近邻算法(k-nearest neighbors,KNN)是一种基本的分类和回归方法,本文只探讨分类问题中的k近邻算法,回归问题通常是得出最近的$k$个实例的标记值,然后取这$k$实例标记值的平均数或中位数. k近邻算法经常被人们应用于生活当中,比如傅玄曾说过"近朱者赤近墨者黑&quo

猜你喜欢

AJAX-js原生封装

js原生中,ajax交互繁琐复杂,很容易就写错了.因此封装了一个跟jq差不多的函数,从此再也不用担心ajax写错了,简直神清气爽. //封装的方法 function AJAX(obj){ //做网络请 ...

时间序列学习笔记

时间序列是按时间次序排列的随机变量序列,任何时间序列经过合理的函数变换后都可以认为是由三个部分叠加而成. 这三个部分是趋势部分.周期项部分和随机噪声项部分.从时间序列中把这三个部分分解出来是时间序列分 ...

函数调用问题、浮点、运算优先级和短路【这个是关键】、按位运算的用处

1.对函数的调用中返回值的意义function f1(){echo 1234;//return 123;//这里对返回值进行处理}var_dump(f1());//这里对整个返回值有一个认识[func ...

2014年前端开发者如何提升自己

大部分人非常在意个人在技术上的提升.但是保持对新技术的了解是一项不小的挑战, 毕竟我们需要的信息在数量上过于庞大.2012年里,伴随着前端发展的是大量的革命性突破和对前端的重新定义. 我们在实践的路上 ...

包括撒赖；扩大艰苦；冷冻室

http://www.houzz.com/ideabooks/35840101/thumbs/ http://www.houzz.com/ideabooks/35840139/thumbs/ http ...

Java防盗链在报表中的应用实例

今天我们来聊聊Java防盗链,多说无用,直接上应用案例. 这里所用的工具是报表软件FineReport,搭配有决策系统(一个web前端展示系统,主要用于权限控制),可以采用java防盗链的方式来实现页 ...

[转]四旋翼飞行器的姿态解算小知识点

1.惯性测量单元IMU(InertialMeasurement Unit) 姿态航向参考系统AHRS(Attitude and Heading Reference System) 地磁角速度重力MAR ...

动态页面静态化的实现

首先,应该明确动态页面与静态页面之间的区别,为什么静态页面的加载要比动态的快. PHP文件的执行阶段是:语法分析——>编译——>运行. 动态是执行这整个过程. 静态(只是一个纯静态的 ht ...

判断语句

if...else语句是在指定的条件成立时执行代码,在条件不成立时执行else后的代码. 语法: if(条件) { 条件成立时执行的代码 } else { 条件不成立时执行的代码 } 运行结果为:

SpringMVC整合Shiro

首先是web.xml <?xml version="1.0" encoding="UTF-8"?> <web-app version ...

第三方打码平台【人工打码】

火眼打码平台 http://www.hyocr.com/ uu云 http://www.uuwise.com/ 打码兔 http://v3.dama2.com/

Shell脚本编写教程

建立一个脚本 Linux中有好多中不同的shell,但是通常我们使用bash (bourne again shell) 进行shell编程,因为bash是免费的并且很容易使用.所以在本文中笔者所 ...

MFC ListControl用法

以下未经说明,listctrl 默认view 风格为report ------------------------------------------------------------------- ...

下阴影

box-shadow: 0 3px 4px rgba(51,51,51,.3); -moz-box-shadow: 0 3px 4px rgba(51,51,51,.3); -ms-box-shado ...

C++的头文件和实现文件

look at http://www.cnblogs.com/ider/archive/2011/06/30/what_is_in_cpp_header_and_implementation_file ...

js的命名空间 && 单体模式 && 变量深拷贝和浅拷贝 && 页面弹窗设计

说在前面:这是我近期开发或者看书遇到的一些点,觉得还是蛮重要的. 一.为你的 JavaScript 对象提供命名空间 <!DOCTYPE html> <html> <he ...

2016校招真题之数组单调和

1.题目描述现定义数组单调和为所有元素i的f(i)值之和.这里的f(i)函数定义为元素i左边(不包括其自身)小于等于它的数字之和.请设计一个高效算法,计算数组的单调和.给定一个数组A同时给定数组的大 ...

Code::Blocks的汉化、主题美化及其调试功能的实现

最近由于Cfree5经常崩溃+调试语句运行速度比较慢,想尝试一下另一个听说很好用的IDE Code::Blocks. 先上官网的安装包(自带mingw,安装完可以直接用,适用于windows系统)下载 ...

getMySingleOrder 取单个我的成交记录

post: request: { "action":"getMySingleOrder", "token":"b6c937b6-0 ...

在easyui中Tab中，调用tab中的函数

var tab = $('#tabs').tabs('getSelected');//获取Tab的jquery对象 var win = tab.find("iframe")[0]. ...

专题

随机推荐

© 2024 憋错料 | info#biecuoliao.com | 10 q. 0.026 s.