机器学习实战 -> 无监督学习

使用后处理来提高聚类性能

利用误差来评价聚类的质量

一种衡量的指标是SSE:误差平方和,该方法更为重视远离簇中心的点。

一种方法是将具有最大SSE值的簇划分成两个簇。将该簇内重新进行分簇。

如果要保持簇的数目不变,可以再讲两个粗合并。合并最小的质心或者合并两个使得SSE枕骨最小的质心。

二分K-均值算法

先将所有点作为一个簇,然后将该粗一分为2,然后再选择其中一个簇进行划分。选择哪一个簇进行划分取决于划分是否可以最大程度的降低SSE的值。

或者

选择SSE最大的簇进行划分,直到簇的数目达到用户指定的数目位置。の3

使用Apriori算法进行关联分析

从频繁项集之中挖掘关联规则

时间: 2024-11-07 23:35:10

机器学习实战 -> 无监督学习的相关文章

[机器学习][K-Means] 无监督学习之K均值聚类

有监督学习虽然高效.应用范围广,但最大的问题就是需要大量的有标签的数据集,但现实生活中我们遇到的大量数据都是没有明确标签的,而且对于庞大的数据集进行标注工作本身也是一项费时费力的工作模式,所以我们希望找到一种方法能自动的挖掘数据集中各变量的关系,然后"总结"出一些规律和特征进行分类,这样的方法我们成为无监督学习(Unsupervised learning). 在无标签的数据集中进行分类的方法成为聚类.顾名思义,聚类就是依照某种算法将相似的样本聚在一起形成一类,而不管它的标签是什么.在聚

2019-07-25【机器学习】无监督学习之聚类 K-Means算法实例 (1999年中国居民消费城市分类)

样本 北京,2959.19,730.79,749.41,513.34,467.87,1141.82,478.42,457.64天津,2459.77,495.47,697.33,302.87,284.19,735.97,570.84,305.08河北,1495.63,515.90,362.37,285.32,272.95,540.58,364.91,188.63山西,1406.33,477.77,290.15,208.57,201.50,414.72,281.84,212.10内蒙古,1303.9

2019-07-31【机器学习】无监督学习之降维PCA算法实例 (鸢尾花)

样本 代码: import matplotlib.pyplot as plt from sklearn.decomposition import PCA from sklearn.datasets import load_iris #加载鸢尾花数据集导入函数 data = load_iris()#加载数据,array([[5.1 3.5 1.4 0.2].....]) #print(data) y = data.target #各50个 0,1,2 暂不明作用, #print(y) X = da

机器学习 一 监督学习和无监督学习的区别

前话: 最近一直想学机器学习的东西,无奈自己的书太多但无法专心看一本,纯理论的东西看了感觉不记下来就忘记类,所以我想理论学习和实践一起. 所以最近想把机器学习实战这本书看完,并做好记录.加油.!~ 一:什么是监督学习? 监督学习(supervised learning):通过已有的训练样本(即已知数据以及其对应的输出)来训练,从而得到一个最优模型,再利用这个模型将所有新的数据样本映射为相应的输出结果,对输出结果进行简单的判断从而实现分类的目的,那么这个最优模型也就具有了对未知数据进行分类的能力.

机器学习中的有监督学习,无监督学习,半监督学习

在机器学习(Machine learning)领域.主要有三类不同的学习方法: 监督学习(Supervised learning). 非监督学习(Unsupervised learning). 半监督学习(Semi-supervised learning), 监督学习:通过已有的一部分输入数据与输出数据之间的相应关系.生成一个函数,将输入映射到合适的输出,比如分类. 非监督学习:直接对输入数据集进行建模,比如聚类. 半监督学习:综合利用有类标的数据和没有类标的数据,来生成合适的分类函数. 一.监

【机器学习算法-python实现】K-means无监督学习实现分类

1.背景 无监督学习的定义就不多说了,不懂得可以google.因为项目需要,需要进行无监督的分类学习. K-means里面的K指的是将数据分成的份数,基本上用的就是算距离的方法. 大致的思路就是给定一个矩阵,假设K的值是2,也就是分成两个部分,那么我们首先确定两个质心.一开始是找矩阵每一列的最大值max,最小值min,算出range=max-min,然后设质心就是min+range*random.之后在逐渐递归跟进,其实要想明白还是要跟一遍代码,自己每一步都输出一下看看跟自己想象的是否一样. (

聊聊机器学习中的无监督学习

机器学习分为监督式机器学习.无监督式机器学习和半监督式机器学习.其划分的标准是训练样本是否包含人为标注的结果. (1)监督式机器学习:从给定的训练数据集中学习出一个函数,当新的数据到来时,可以根据这个函数预测结果.监督学习的训练集要求是包括输入和输出,也可以说是特征和目标.训练集中的目标是由人标注的.常见的监督学习算法包括回归分析和统计分类. (2)无监督式机器学习:与监督学习相比,训练集没有人为标注的结果.常见的无监督学习算法有聚类. (3)半监督式机器学习:是监督学习和无监督学习相结合的一种

机器学习:监督学习和无监督学习

************************************** 注:本系列博客是博主学习Stanford大学 Andrew Ng 教授的<机器学习>课程笔记.博主深感学过课程后,不进行总结非常easy遗忘.依据课程加上自己对不明确问题的补充遂有此系列博客. 本系列博客包含线性回归.逻辑回归.神经网络.机器学习的应用和系统设计.支持向量机.聚类.将维.异常检測.推荐系统及大规模机器学习等内容. ************************************** 机器学习定

机器学习的定义及监督学习和无监督学习

机器学习定义 机器学习是人工智能的一个分支,目标是赋予机器一种新的能力.(专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能.)机器学习的应用很广泛,例如大规模的数据挖掘(网页点击数据,医疗记录等),无人驾驶飞机.汽车,手写手别,大多数的自然语言处理任务,计算机视觉,推荐系统等. 机器学习有很多定义,广为人知的有如下两条: ArthurSamuel (1959): Machine Learning: Field of study tha