0A04 无监督学习:聚类(2) 近邻算法(Affinity Propagation)

  AP算法,具有结果稳定可重现

  训练前不用制定K-means中K值,但是算法的时间复杂度比K-means高

import numpy as np
from sklearn.cluster import AffinityPropagation # 引入AP算法聚类

X = np.array([[1,2],[1,4],[0.7,0],[0.2,5],[0,4],[1.3,0],[0.1,2],[0,4],[0.4,0]]) # 训练数据
af = AffinityPropagation(preference=-5).fit(X) # preference结点参考度 =-5 聚类
print(af.labels_) # 查看聚类结果
af2 = AffinityPropagation(preference=-8).fit(X)
print(af2.labels_) # 查看聚类结果
print(af2.n_iter_) # 迭代进行了42轮
print(af2.cluster_centers_) # 两个质心的坐标

‘‘‘
一些重要的初始化参数:
damping: 阻尼因子,范围在0.5-1之间
converfence_iter: 聚类结果连续迭代 converfence_iter 次没有变化时,认为已经达到了稳定状态,算法完成
max_iter: 最大迭代次数
preference: 结点参考度,可以是一个数值或一个数组(每个样本有各自的参考度)
affinity: 相似度计算的方法
一些重要的聚类结果的属性:
cluster_centers_indices 质心样本在训练集中的索引号
cluster_centers_: 质心结点的特征向量数组
labels_: 训练样本的聚类结果
n_iter: 算法收敛所用的迭代次数
affinity_matrix: 近邻矩阵,也就是责任度矩阵和可用度矩阵的和
‘‘‘

原文地址:https://www.cnblogs.com/liu247/p/11066979.html

时间: 2024-10-28 22:00:07

0A04 无监督学习:聚类(2) 近邻算法(Affinity Propagation)的相关文章

0A04 无监督学习:聚类(1) k-means

这是一个非常简单的聚类算法,算法的目的就是找到这些中心点的合适坐标,使得所有样本到其分组中心点距离的平方和最小. K-means 的中心点向量不一定是训练样本中某成员的位置 import numpy as npfrom sklearn.cluster import KMeans # 引入K-means模型 # 1.训练和预测X = np.array([[1,2],[1,4],[1,0], [4,2],[4,4],[4,0]])kmeans = KMeans(n_clusters=2,random

05_无监督学习--聚类模型--K 均值

无监督学习--聚类模型--K 均值0.引入依赖1.数据的加载和预处理2.算法实现3.测试 无监督学习--聚类模型--K 均值 0.引入依赖 import numpy as npimport matplotlib.pyplot as plt # 这里直接 sklearn 里的数据集from sklearn.datasets.samples_generator import make_blobs 1.数据的加载和预处理 x, y = make_blobs(n_samples=100, centers

无监督学习——聚类算法

聚类分析是在数据中发现数据对象之间的关系,将数据进行分组,组内的相似性越大,组间的差别越大,则聚类效果越好. 此次我们学习聚类中的第一个算法——K-均值算法.K-均值算法本质就是重复将样本分配的类里面,不断的更新类的重心位置. 这里将围绕K-均值算法讨论目标优化.随机初始化和如何选择聚类数. K-Means算法 K-均值是最普及的聚类算法,算法接受一个未标记的数据集,然后将数据聚类成不同的组. K-均值是一个迭代算法,假设我们想要将数据聚类成 n 个组,其方法为: 首先选择??个随机的点,称为聚

[数据挖掘课程笔记]无监督学习——聚类(clustering)

什么是聚类(clustering) 个人理解:聚类就是将大量无标签的记录,根据它们的特点把它们分成簇,最后结果应当是相同簇之间相似性要尽可能大,不同簇之间相似性要尽可能小. 聚类方法的分类如下图所示: 一.如何计算样本之间的距离? 样本属性可能有的类型有:数值型,命名型,布尔型……在计算样本之间的距离时,需要将不同类型属性分开计算,最后统一相加,得到两个样本之间的距离.下面将介绍不同类型的属性的数据计算方法. 对于全部都是连续的数值型的样本来说,首先,对于值相差较大的属性来说,应该进行归一化,变

4.无监督学习--聚类

K-means方法及其应用 1.K-means聚类算法简介: k-means算法以k为参数,把n个对象分成k个簇,使簇内具有较高的相似度,而簇间的相似度较低.主要处理过程包括: 1.随机选择k个点作为初始的聚类中心. 2.对于剩下的点,根据其与聚类中心的距离,将其归入最近的簇. 3.对每个簇,计算所有点的均值作为新的聚类中心. 4.重复2.3直到聚类中心不再发生改变. 举例:对于A.B.C.D.E这5个点,我们先随机选择两个点作为簇中心点,标记为红色和黄色,对于第一次聚类结果,我们分别计算所有的

2019-07-31【机器学习】无监督学习之降维PCA算法实例 (鸢尾花)

样本 代码: import matplotlib.pyplot as plt from sklearn.decomposition import PCA from sklearn.datasets import load_iris #加载鸢尾花数据集导入函数 data = load_iris()#加载数据,array([[5.1 3.5 1.4 0.2].....]) #print(data) y = data.target #各50个 0,1,2 暂不明作用, #print(y) X = da

无监督学习小记(参考)

下面凌乱的小记一下无监督学习 无监督学习->聚类 降维 聚类:数据相似性 相似性的评估:两个数据样本间的距离 距离:欧氏距离 曼哈顿距离 马氏距离 夹角余弦 sklearn 聚类算法 sklearn.cluster,如k-means 近邻传播 DBSCAN等 标准的数据输入格式:[样本个数,特征个数]定义的矩阵形式 介绍sklearn.cluster |算法名称|参数|可扩展性|相似度度量| |-|-|-|-| 降维 主成分分析PCA PCA常用于高维数据集的探索与可视化,还可以用于数据压缩和预

『cs231n』无监督学习

经典无监督学习 聚类 K均值 PCA主成分分析 等 深度学习下的无监督学习 自编码器 传统的基于特征学习的自编码器 变种的生成式自编码器 Gen网络(对抗式生成网络) 传统自编码器 原理 类似于一个自学习式PCA,如果编码/解码器只是单层线性的话 自编码器编码解码示意图: 特征提取过程中甚至用到了卷积网络+relu的结构(我的认知停留在Originally级别) 编码&解码器可以共享权值(在我接触的代码中一般都没共享权值) 损失函数推荐L2 应用 由于重建已知数据是个没什么用的过程,所以自编码器

无监督学习——K-均值聚类算法对未标注数据分组

无监督学习 和监督学习不同的是,在无监督学习中数据并没有标签(分类).无监督学习需要通过算法找到这些数据内在的规律,将他们分类.(如下图中的数据,并没有标签,大概可以看出数据集可以分为三类,它就是一个无监督学习过程.) 无监督学习没有训练过程. 聚类算法 该算法将相似的对象轨道同一个簇中,有点像全自动分类.簇内的对象越相似它的分类效果越好. 未接触这个概念可能觉得很高大上,稍微看了一会其实算法的思路和KNN一样很简单. 原始数据集如下(数据有两个特征,分别用横纵坐标表示),原始数据集并没有任何标