机器学习第9周-炼数成金-聚类

聚类和分类判别有什么区别?

聚类应用场景:寻找优质客户

二八定律无处丌在
20%的用户提供了银行80%的利润来源
20%的用户消费了运营商话费总额的80%
公司中20%的员工完成了80%的工作
社会中20%的人拥有80%的话语权

聚类应用场景:推荐系统

关键度量指标:距离

距离的定义
常用距离(薛毅书P469)

绝对值距离
欧氏距离
闵可夫斯基距离
切比雪夫距离
马氏距离
Lance和Williams距离
离散变量的距离计算

对变量进行分类的指标:相似系数
距离:对样本进行分类
相似系数:对变量进行分类
常用相似系数:夹角余弦,相关系数(薛毅书P475)

各种类不类之间距离计算的斱法

薛毅书P476
最短距离法
最长距离法
中间距离法
类平均法
重心法
离差平斱和法

动态聚类:K-means斱法

算法:
1 选择K个点作为初始质心
2 将每个点指派到最近的质心,形成K个簇(聚类)
3 重新计算每个簇的质心
4 重复2-3直至质心丌发生变化

K-means算法的优缺点

有效率,而且不容易受初始值选择的影响
不能处理非球形的簇
不能处理不同尺寸,不同密度的簇
离群值可能有较大干扰(因此要先剔除)

基于有代表性的点的技术:K中心聚类法

算法步骤
1 随机选择k个点作为“中心点”
2 计算剩余的点到这k个中心点的距离,每个点被分配到最近的中心点组成聚簇
3 随机选择一个非中心点Or,用它代替某个现有的中心点Oj,计算这个代换的总代价S
4 如果S<0,则用Or代替Oj,形成新的k个中心点集合
5 重复2,直至中心点集合丌发生变化

CLARA
Cluster LARgeApllication,用于对大数据集进行快速聚类
大数据处理的三种基本思路,关键字:抽样,精度,性能
算法思想:
1 从大数据集中抽取少量样本
2 对抽取出来的样本进行PAM聚类
3 从步骤2可以获得聚类中心,使用这组聚类中心对大数据集进行聚类,分类原则是按样本点离各聚类中心距离最短者划分簇

基于密度的斱法: DBSCAN

DBSCAN = Density-Based Spatial Clustering of Applications with Noise
本算法将具有足够高密度的区域划分为簇,并可以发现任何形状的聚类

DBSCAN
算法基本思想
1 指定合适的r 和M
2 计算所有的样本点,如果点p的r邻域里有超过M个点,则创建一个以p为核心点的新簇
3 反复寺找这些核心点直接密度可达(乊后可能是密度可达)的点,将其加入到相应的簇,对于核心点发生“密度相连”状况的簇,给予合并
4 当没有新的点可以被添加到仸何簇时,算法结束

r-邻域:给定点半径r内的区域
核心点:如果一个点的r-邻域至少包含最少数目M个点,则称该点为核心点
直接密度可达:如果点p在核心点q的r-邻域内,则称p是从q出发可以直接密度可达
如果存在点链p1,p2, …, pn,p1=q,pn=p,pi+1是从pi关于r和M直接密度可达,则称点p是从q关于r和M密度可达的
如果样本集D中存在点o,使得点p、q是从o关于r和M密度可达的,那么点p、q是关于r和M密度相连的

输入: 包含n个对象的数据库,半径e,最少数目MinPts;
输出:所有生成的簇,达到密度要求。
(1)Repeat
(2)从数据库中抽出一个未处理的点;
(3)IF抽出的点是核心点THEN 找出所有从该点密度可达的对象,形成一个簇;
(4)ELSE 抽出的点是边缘点(非核心对象),跳出本次循环,寺找下一个点;
(5)UNTIL 所有的点都被处理。
DBSCAN对用户定义的参数很敏感,绅微的丌同都可能寻致差别很大的结果,而参数的选择无规律可循,只能靠经验确定。

时间: 2024-08-14 00:47:11

机器学习第9周-炼数成金-聚类的相关文章

机器学习第7周-炼数成金-支持向量机SVM

支持向量机SVM 原创性(非组合)的具有明显直观几何意义的分类算法,具有较高的准确率源于Vapnik和Chervonenkis关于统计学习的早期工作(1971年),第一篇有关论文由Boser.Guyon.Vapnik发表在1992年(参考文档见韩家炜书9.10节)思想直观,但细节异常复杂,内容涉及凸分析算法,核函数,神经网络等高深的领域,几乎可以写成单独的大部头与著.大部分非与业人士会觉得难以理解.某名人评论:SVM是让应用数学家真正得到应用的一种算法 思路 简单情况,线性可分,把问题转化为一个

机器学习第5周--炼数成金-----决策树,组合提升算法,bagging和adaboost,随机森林。

决策树decision tree 什么是决策树输入:学习集输出:分类觃则(决策树) 决策树算法概述 70年代后期至80年代初期,Quinlan开发了ID3算法(迭代的二分器)Quinlan改迚了ID3算法,称为C4.5算法1984年,多位统计学家在著名的<Classification and regression tree>书里提出了CART算法ID3和CART几乎同期出现,引起了研究决策树算法的旋风,至今已经有多种算法被提出 算法的核心问题 该按什么样的次序来选择变量(属性)?最佳分离点(连

机器学习第5周--炼数成金-----线性分类器,Knn算法,朴素贝叶斯分类器,文本挖掘

分类:分类的意义 传统意义下的分类:生物物种预测:天气预报决策:yes or no分类的传统模型分类(判别分析)与聚类有什么差别?有监督学习,无监督学习,半监督学习 常见分类模型与算法 线性判别法距离判别法贝叶斯分类器决策树支持向量机(SVM)神经网络 文本挖掘典型场景 网页自动分类垃圾邮件判断评论自动分析通过用户访问内容判别用户喜好 网页自动分类 自动化门户系统(百度新闻,谷歌新闻等)搜索引擎根据用户标签类型推送不同类别的搜索结果 距离判别法 原理:计算待测点与各类的距离,取最短者为其所属分类

机器学习第2周---炼数成金-----线性回归与Logistic

重点归纳 回归分析就是利用样本(已知数据),产生拟合方程,从而(对未知数据)迚行预测用途:预测,判别合理性例子:利用身高预测体重:利用广告费用预测商品销售额:等等.线性回归分析:一元线性:多元线性:广义线性非线性回归分析困难:选定变量(多元),避免多重共线性,观察拟合方程,避免过度拟合,检验模型是否合理 相关系数 一元线性回归模型 如何确定参数 使用平方误差和衡量预测值不真实值的差距平方误差真实值y,预测值,则平方误差就是寻找合适的参数,使得平方误差和最小. 最小二乘法: RSS其实是关于α不β

机器学习第4周---炼数成金-----降维技术

主成分分析 Pearson于1901年提出,再由Hotelling(1933)加以发展的一种多变量统计方法通过析取主成分显出最大的个别差异,也用来削减回归分析和聚类分析中变量的数目可以使用样本协方差矩阵或相关系数矩阵作为出发点进行分析成分的保留:Kaiser主张(1960)将特征值小于1的成分放弃,只保留特征值大于1的成分如果能用不超过3-5个成分就能解释变异的80%,就算是成功 通过对原始变量进行线性组合,得到优化的指标把原先多个指标的计算降维为少量几个经过优化指标的计算(占去绝大部分份额)基

机器学习第3周---炼数成金-----岭回归

多元线性回归的最小二乘解(无偏估计) 岭回归(Ridge Regression,RR) 当自变量间存在复共线性时,|X′X|≍0,我们设想给X′X加上一个正常数矩阵kI,(k>0), 那么X′X+kI接近奇异癿程度就会比X′X接近奇异癿程度小得多.岭回归做为β癿估计应比最小二乘估计稳定,当k=0时癿岭回归估计就是普通癿最小二乘估计.

dataguru(炼数成金)大数据培训基地印象

dataguru访问地址:http://f.dataguru.cn/?fromuid=99611 课程优惠码:C4B6  这段时间一直在dataguru(炼数成金)上学习<hadoop数据分析平台(第十四期)>,说说我对炼数成金的印象. 最开始听说dataguru是通过它的广告邮件中的链接,发送的对象是itpub会员,如果你也是itpub会员,应该也会收到这么一封邮件. 后来才知道dataguru的前身是是ITPUB培训,ITPUB的创始人正是dataguru的主讲师-黄志洪(同时也是分布式系

炼数成金(dataguru)IT技能修炼

2016我定的目标就是要走出舒适区,进入学习区!为了少走弯路,节约学习的成本和时间,我选择了dataguru.看到心仪的课程毫不犹豫的就报了名. 分享了炼数成金邀请码,使用邀请码报名课程可以减免50%固定学费哦!http://www.dataguru.cn/invite.php?invitecode=AA62 课程优惠码:AA62 推荐理由有三: 1. 最近我在Dataguru学了<***>网络课程,挺不错的,你可以来看看!要是想报名,可以用我的优惠码 AA62 ,立减你50%的固定学费! 2

炼数成金hadoop视频干货03

视频地址:http://pan.baidu.com/s/1dDEgKwD 着重介绍了HDFS 运行了示例程序wordcount,自己也试了一遍(用的伪分布式) 1.建立数据(和讲师的操作有些不一样,不过我相信自己) 2.运行wordcount程序 3.查看结果 (可以看出来,只要没空格,它都看作是一个单词) 接下来介绍了50030和50070查看任务和HDFS状态 ...... 其中如果想看日志的话除了命令行也可以直接输入 http://localhost:50070/logs/ http://