k-means算法处理聚类标签不足的异常

k-means算法在人群聚类场景中，是一个非常实用的工具。（该算法的原理可以参考K-Means算法的Python实现)

常见调用方式

该算法常规的调用方式如下：

# 从sklearn引包
from sklearn import cluster
# 初始化并设定聚类数
k_means = cluster.KMeans(n_clusters=9)
# 指定聚类特征
df_pct = stat_score['feature_1', 'feture_2', 'feature_3']
k_means.fit(df_input.fillna(0))

# 计算聚类标签
labels = k_means.labels_
# 获得聚类的质心
C = k_means.cluster_centers_

异常现象

常规情况下，以上处理后，会根据dataframe上的索引列顺序的label(0～8的数值)。
但是，我们在执行代码过程中，出现了raise ValueError(‘Length of values does not match length of ‘ ‘index‘)错误，该错误是由于对label值进行翻译的时候出现了label个数不到8个的情况。也就是说，k-means算法最后给出少于8个的聚类标签。

打印中间信息，确认只得到了3个聚类标签。

>>>>>>>>>>>>>>>>>>>>labels<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<
[4 4 4 4 4 2 4 4 4 0 4 4 4 0]
14
{0, 2, 4}

异常原因

在对原数据进行下钻维度上的聚类时，比如全公司下某个门店的订单，存在一定时间内订单过少的情况。上面异常就是因为在一个下钻维度上只有28条特征记录，造成k-means只得到3个标签，最后出现了dataframe行数不匹配的情况。

处理方式

在对下钻维度进行聚类前，对此维度的特征数量进行统计，若数量小于特定阈值则考虑：

使用特征分组聚类然后再对分组标签进行组合；
考虑其它聚类算法，如Spectral clustering。

原文地址：https://www.cnblogs.com/shenfeng/p/kmean_label_lacking.html

时间： 2024-10-12 05:52:34

k-means算法处理聚类标签不足的异常的相关文章

K－means算法

K-means算法很简单,它属于无监督学习算法中的聚类算法中的一种方法吧,利用欧式距离进行聚合啦. 解决的问题如图所示哈:有一堆没有标签的训练样本,并且它们可以潜在地分为K类,我们怎么把它们划分呢? 那我们就用K-means算法进行划分吧. 算法很简单,这么做就可以啦: 第一步:随机初始化每种类别的中心点,u1,u2,u3,--,uk; 第二步:重复以下过程: 然后 ,就没有然后了,就这样子. 太简单, 不解释.

聚类算法：K-means 算法(k均值算法)

k-means算法: 第一步:选$K$个初始聚类中心,$z_1(1),z_2(1),\cdots,z_k(1)$,其中括号内的序号为寻找聚类中心的迭代运算的次序号. 聚类中心的向量值可任意设定,例如可选开始的$K$个模式样本的向量值作为初始聚类中心. 第二步:逐个将需分类的模式样本$\{x\}$按最小距离准则分配给$K$个聚类中心中的某一个$z_j(1)$.假设$i=j$时, \[D_j (k) = \min \{ \left\| {x - z_i (k)} \right\|

聚类--K均值算法：自主实现与sklearn.cluster.KMeans调用

4 用python实现K均值算法 x=np.random.randint(1,100,[20,1]) y=np.zeros(20) k=3 def initcenter(x,k): return x[:k] def nearest(kc,i): d = (abs(kc - i)) w = np.where(d ==np.min(d)) return w [0] [0] kc = initcenter(x,k) nearest(kc,14) for i in range(x.shape[0]):

聚类--K均值算法

聚类--K均值算法:自主实现与sklearn.cluster.KMeans调用 1.用python实现K均值算法 K-means是一个反复迭代的过程,算法分为四个步骤:(x,k,y) import numpy as np x = np.random.randint(1,50,[20,1]) y = np.zeros(20) k = 3 # 选取数据空间中的K个对象作为初始中心,每个对象代表一个聚类中心:def initcenter(x, k): kc def initcenter(x,k)

3.K均值算法

1). 扑克牌手动演练k均值聚类过程:>30张牌,3类选取32张牌,分3类. 第1轮:聚类中心为1,2,3. 第2轮:聚类中心为1,2,6(5.5向上取整). 第3轮:聚类中心为1,2,6(5.5向上取整). # 扑克牌手动演练k均值聚类过程:选择32张牌,3类 sum11 = 0 sum12 = 0 sum13 = 0 print("第1轮") for i in range(1, 2): sum11 = sum11+i*4 print("牌为1类求平均值,得到新的中

K均值算法matlab实现

这个算法可以分两步实现,一个是function [d] = dist(x,y) 其中x和y分别代表一个向量:另外一个是function [y,C] = Kmeans( D,k ) 其中y为聚类中心分类集合,C为聚类中心集,D为目标矩阵(即为待分类的矩阵),k为聚类中心个数. 测试矩阵为: 测试结果如下: 不要问我是谁,请叫我红领巾

DM里的K均值算法

1.Preface 因为一直在做的是聚类算法的研究,算是总结了一些心得,这里总结些知识性与思路性的东西,我想在其他地方也是很容易的找到类似的内容的.毕竟,世界就是那么小. 声明:本文比较不适合没有DM基础的人来阅读.我只是胡乱的涂鸦而已 2.聚类算法在DM里的聚类算法里,有基于划分的算法,基于层次的算法,基于密度的算法,基于网格的算法,基于约束的算法. 其中每一种基于的算法都会衍生出一至几种算法,对应的每一种算法不管在学术界还是工业界都存在着许多的改进的算法这里想介绍的是基于基于划分的算法里

『cs231n』作业1问题1选讲_通过代码理解K近邻算法&交叉验证选择超参数参数

通过K近邻算法探究numpy向量运算提速茴香豆的"茴"字有... ... 使用三种计算图片距离的方式实现K近邻算法: 1.最为基础的双循环 2.利用numpy的broadca机制实现单循环 3.利用broadcast和矩阵的数学性质实现无循环图片被拉伸为一维数组 X_train:(train_num, 一维数组) X:(test_num, 一维数组) 方法验证 import numpy as np a = np.array([[1,1,1],[2,2,2],[3,3,3]]) b

从K近邻算法、距离度量谈到KD树、SIFT+BBF算法

从K近邻算法.距离度量谈到KD树.SIFT+BBF算法从K近邻算法.距离度量谈到KD树.SIFT+BBF算法前言前两日,在微博上说:“到今天为止,我至少亏欠了3篇文章待写:1.KD树:2.神经网络:3.编程艺术第28章.你看到,blog内的文章与你于别处所见的任何都不同.于是,等啊等,等一台电脑,只好等待..”.得益于田,借了我一台电脑(借他电脑的时候,我连表示感谢,他说“能找到工作全靠你的博客,这点儿小忙还说,不地道”,有的时候,稍许感受到受人信任也是一种压力,愿我不辜负大家对我的信任)

猜你喜欢

非公经济后果桔梗花开

http://passport.baidu.com/?business&un=%E6%8C%89%E6%91%A9%E7%BE%8E%E5%A5%B3%E5%AE%89%E6%BA%AA ht ...

学习Drupal、phpMyAdmin，一个android设备的软件即可搞定！

手机服务站 v1.0.6下载地址:http://down.znds.com/apk/tool/2014/0528/667.html简介: 一款集成wifiAp+lamp+ssh+bt功能的软件 ...

OpenLDAP Replicaton

原文:http://www.openldap.org/doc/admin24/replication.html 一.基础 OpenLDAP 复制基于syncrepl进程.它有两个角色.一个是provi ...

假期阅读笔记八

架构之美--系统架构(二) 时间很快,转眼假期过去了一半,理所当然<架构之美>也已经阅读了一半.直到今天,我才明白"不积跬步,无以至千里:不积小流,无以成江海!"的真正 ...

【HDU 5858】Hard problem

边长是L的正方形,然后两个半径为L的圆弧和中间半径为L的圆相交.求阴影部分面积. 以中间圆心为原点,对角线为xy轴建立直角坐标系. 然后可以联立方程解出交点. 交点是$(\frac{\sqrt{7} ...

计蒜客寻找插入位置（二分查找）

给定一个已经升序排好序的数组,以及一个数 target,如果 target 在数组中,返回它在数组中的位置. 否则,返回 target插入数组后它应该在的位置. 假设数组中没有重复的数.以下是简单的示 ...

Javascript学习笔记：对象的属性类型

在ECMAScript中有两种属性:数据属性和访问器属性 1.数据属性 configurable:表示能否通过delete删除属性从而重新定义属性:或者能否修改属性的特性:或者能否把属性修改为访问器属 ...

input 放大镜

<input results="s" type="search" size="20px" placeholder="搜索& ...

-bash: ulimit: max user processes: cannot modify limit: Operation not permitted

安装oracle时候在创建oracle用户后,切换oracle用户时,报如下错 [[email protected] ~]# su - oracle-bash: ulimit: max user pr ...

HDU4638——Group（树状数组+离线操作）

题目链接题目大意 n个数的序列,m次询问. 求一段区间连续数字的段数 . (1 3 5 4 2) 询问[2,4]区间则3,5,4为连续序列输出 1 . 解题思路我觉得这是一道不错的题目. 定义线段 ...

单调队列入门

给定长度为n的数列a[]和整数k,求b[i] = min{a[i], ... , a[i + k - 1]}, 复杂度为O(n) 最开始单调队列为空,保证队列中的元素始终保持单调性为了计算b[0], ...

想知道WiFi是什么样子的么？

据英国<每日邮报>报道.英国纽卡斯尔大学博士生路易斯·赫南日前利用定制的仪器为WiFi信号拍照,绘制出一系列展现人类周围无形网络WiFi连接情况的图,这些盘旋环绕的明亮光束,宛如幽灵一般缠 ...

c#早期面试题

string str; string str=""; string str=null;三者之间有什么区别,最好能用图形表示. 答:区别如下: string str;如果str是 ...

Linux 驱动之并发控制（信号量）

摘要:并发控制,是多任务操作系统必须面临和解决的一个问题.并发与互斥,主要是用于保护临界资源,如果不站在操作系统进程调度的角度,就很难理解并发与互斥的概念和应用.无论是抢占式操作系统,还是分时操作系统 ...

mokoid android open source HAL hacking in a picture

/************************************************************************** * mokoid android HAL hac ...

shell学习之查找当前目录下文件以及文件夹大小-'du'命令和'df'命令

经过前几天的磁盘写满的事件之后,发现自己对du这个命令完全不知道,所以下决心要学习一番. 我就当一盘搬运工吧,外网找到一个教程 'du'就是查找文件夹的大小 du Typing the above a ...

Linux防火墙开放特定端口

vi /etc/sysconfig/iptables #开放9000端口 -A RH-Firewall-1-INPUT -m state --state NEW -m tcp -p tcp --dpo ...

Java 缩放图片工具类，创建缩略图、伸缩图片比例

http://my.oschina.net/backtract/blog/403828 Thumbnailator的简介和使用范例

SoapUI 之 JDBC请求

之前有试过Jmeter的JDBC请求,挺方便的,今天下午闲来没事,看见soapUI里面也有一个JDBC请求,便也来试试. 首先添加一个JDBC请求,然后直接把Jmeter的一些链接参数复制过去,一直报 ...

通过反射，获取类的属性

http://stackoverflow.com/questions/3723934/using-propertyinfo-to-find-out-the-property-type https:// ...

专题

随机推荐

© 2024 憋错料 | info#biecuoliao.com | 10 q. 0.023 s.