聚类相关

归一化:可以将大量重复特征聚合为单一特征,降低重复带来的相似度差异。方法: Vx = Vx /abs(v1)+...abs(Vn)

词干处理:(变形词,同意词,近义词聚合) 减少特征的重复性 imaging-images buy-bought 我-俺 早餐-早饭.......

停用词:(弱特征)大量出现的没有实际特征意义的虚词,副词,语气词等  I ,am, is ,a,an,always 我,啊,了,个,的.........

停用词兴奋剂:(词频-反转文档频率(TF-IDF)) 大量的停用词出现在某部分文档中而极少出现在其它地方,反而成为某部分文档的强特征。

扁平聚类:将对象分为一系列相互之间没有关联的簇。每个簇中的的对象之间非常相似。

层次聚类:相似的对象聚集到一个簇中,相似的簇进一步聚集到一个超级簇中,逐步递归到形成一个簇。

k均值:不断调整质心和簇的分配,反复迭代到某一阈值时,聚类收敛成功。

其它相似度衡量方法:Cosin,Pearson,Jaccard系数等。

聚类相关

时间: 2024-10-27 19:11:26

聚类相关的相关文章

聚类(一)——Kmeans

Clustering 聚类K-means 聚类是机器学习和数据挖掘领域的主要研究方向之一,它是一种无监督学习算法,小编研究生时期的主要研究方向是"数据流自适应聚类算法",所以对聚类算法有比较深刻的理解,于是决定开一个专题来写聚类算法,希望可以为入门及研究聚类相关算法的读者带来帮助.聚类可以作为一个单独的任务,用于寻找数据内在分布结构,也经常作为其他学习任务的前驱过程,应用十分广泛.今天,小编就带你探索聚类算法的奥秘,并介绍第一个聚类算法Kmeans. Q:什么是聚类? A:聚类是按照某

Solr调研总结(转)

Solr调研总结 开发类型 全文检索相关开发 Solr版本 4.2 文件内容 本文介绍solr的功能使用及相关注意事项;主要包括以下内容:环境搭建及调试.两个核心配置文件介绍.中文分词器配置.维护索引.查询索引,高亮显示.拼写检查.搜索建议.分组统计.自动聚类.相似匹配.拼音检索等功能的使用方法. 在代码文本框中如有显示不全的,请在文本框中按Ctrl+A再复制. 版本 作者/修改人 日期 V1.0 gzk 2013-06-04 1. Solr 是什么? Solr它是一种开放源码的.基于 Luce

机器学习--入门答疑

刚接触机器学习这一个月我都做了什么? 这一个月,从对机器学习充满好奇与畏惧,到对各种算法稍有理解以及围绕推荐场景的编码实践,算是对机器学习有了一个入门的体验.但是中间也踩过不少坑,比如啃过线性代数的教材.看过无聊的机器学习课程.追过高端的机器学习书籍.陷入一个算法无法自拔(最后也没整明白)...其实,学习机器学习没有那么难,也很容易走偏.谨以此文,作为ML入门小白的一个小小的参考... 本篇虽不是这一个月的流水账,但是基本按照下面的思路对着一个月做了一次总结: 什么是机器学习? 机器学习都有什么

《机器学习系统设计》之应用scikit-learn做文本分类(下)

前言: 本系列是在作者学习<机器学习系统设计>([美] WilliRichert)过程中的思考与实践,全书通过Python从数据处理,到特征工程,再到模型选择,把机器学习解决问题的过程一一呈现.书中设计的源代码和数据集已上传到我的资源:http://download.csdn.net/detail/solomon1558/8971649 第3章通过词袋模型+K均值聚类实现相关文本的匹配.本文主要讲解K-均值聚类相关知识以及在20newsgroup数据集上使用K-均值聚类进行测试.     相关

hadoop矩阵乘法

引言 何为大矩阵?Excel.SPSS,甚至SAS处理不了或者处理起来非常困难,需要设计巧妙的分布式方法才能高效解决基本运算(如转置.加法.乘法.求逆)的矩阵,我们认为其可被称为大矩阵.这意味着此种矩阵的维度至少是百万级的.经常是千万级的.有时是亿万级的.举个形象的栗子.至2012年12月底,新浪微博注册用户数超5亿,日活跃用户4629万[1],如果我们要探索这4000多万用户可以分成哪些类别,以便深入了解用户共同特征,制定精准营销策略,势必要用到聚类相关的算法(比如新浪大牛张俊林就利用聚类算法

[ZZ]机器学习的入门

转载自: http://www.cnblogs.com/mq0036/p/7131678.html 本篇虽不是这一个月的流水账,但是基本按照下面的思路对着一个月做了一次总结: 什么是机器学习? 机器学习都有什么算法? 个人对机器学习的三种境界理解 推荐的学习路线 推荐资源 希望读者有所收获,另外,如果文中有任何理解上的错误,还望指正! 什么是机器学习? 之前在没有具体接触到机器学习前,我大概对他有一个概念上的认识,觉得是一种很高级的算法,能让机器学会很多的事情,就像...<我的机器人女友>里那

机器学习经典算法之EM

一.简介 EM 的英文是 Expectation Maximization,所以 EM 算法也叫最大期望算法. 我们先看一个简单的场景:假设你炒了一份菜,想要把它平均分到两个碟子里,该怎么分? 很少有人用称对菜进行称重,再计算一半的分量进行平分.大部分人的方法是先分一部分到碟子 A 中,然后再把剩余的分到碟子 B 中,再来观察碟子 A 和 B 里的菜是否一样多,哪个多就匀一些到少的那个碟子里,然后再观察碟子 A 和 B 里的是否一样多……整个过程一直重复下去,直到份量不发生变化为止. 你能从这个

python分类预测模型的特点

模型 模型特点 位于 SVM 强大的模型,可以用来回归,预测,分类等,而根据选取不同的和函数,模型可以是线性的/非线性的 sklearn.svm 决策树 基于"分类讨论,逐步细化"思想的分类模型,模型直观,易解释 sklearn.tree 朴素贝叶斯 基于概率思想的简单有效的分类模型,能够给出容易理解的概率解释 sklearn.naive_bayes 神经网络 具有强大的拟合能力,可疑用于拟合,分类等,它有多个增强版本,如递神经网络,卷积神经网络,自编吗器等,这些是深度学习的模型基础

编程十七年心得与流水账

前言: 好些年没有写博客了. 最近公司很忙很忙,在从早到晚连轴转的情况下,感觉需要花点多思考思考自己的事情.从03年高一正式学习编程算起,已经经过了17年了.工作也十年了.回想起这17年,突然有种想记录一下流水账:一方面不希望有些东西之后忘记了,另一方面也希望自己的经历和教训能够帮助到别人. 高中三年 (2003-2006): 我03年上高一,高中是全国比较有名的搞计算机竞赛的学校,出了几位OI金牌和银牌.这点上是一个很好的机遇,之前对电脑是非常的爱好,那时候是比尔盖茨.乔布斯的年代,为了学习编