时间: 2024-12-28 18:15:46
系统聚类(hierarchical clustering analysis)
系统聚类(hierarchical clustering analysis)的相关文章
层级聚类(Hierarchical Clustering)
#!/usr/bin/env python # -*- coding: utf-8 -*- from numpy import * """ Code for hierarchical clustering, modified from Programming Collective Intelligence by Toby Segaran (O'Reilly Media 2007, page 33). """ class cluster_node:
漫谈 Clustering (5): Hierarchical Clustering
系列不小心又拖了好久,其实正儿八经的 blog 也好久没有写了,因为比较忙嘛,不过觉得 Hierarchical Clustering 这个话题我能说的东西应该不多,所以还是先写了吧(我准备这次一个公式都不贴 ).Hierarchical Clustering 正如它字面上的意思那样,是层次化的聚类,得出来的结构是一棵树,如右图所示.在前面我们介绍过不少聚类方法,但是都是“平坦”型的聚类,然而他们还有一个更大的共同点,或者说是弱点,就是难以确定类别数.实际上,(在某次不太正式的电话面试里)我曾
聚类(Clustering)
简介 这大概是我第一次涉及到跟智能算法相关的东西--聚类.无奈,老师布置的作业,要求2-3天看完然后汇报.毕竟第一次看这一类的文章,如果理解有偏见,欢迎指出.我的邮箱:[email protected]. 先介绍一下什么是聚类(Clustering)吧.简单地说就是把相似的数据分到一组.比如你把人进行分组,如果是按性别分,那很容易,只有俩点.如果你按年龄或者身高分组,定义一下高的还是矮的进行分组就可以了.但是我们常常会遇到很多复杂的情况,比如人的健康情况,你要把健康情况不一样的进行分组.这个涉及
[数据挖掘课程笔记]无监督学习——聚类(clustering)
什么是聚类(clustering) 个人理解:聚类就是将大量无标签的记录,根据它们的特点把它们分成簇,最后结果应当是相同簇之间相似性要尽可能大,不同簇之间相似性要尽可能小. 聚类方法的分类如下图所示: 一.如何计算样本之间的距离? 样本属性可能有的类型有:数值型,命名型,布尔型……在计算样本之间的距离时,需要将不同类型属性分开计算,最后统一相加,得到两个样本之间的距离.下面将介绍不同类型的属性的数据计算方法. 对于全部都是连续的数值型的样本来说,首先,对于值相差较大的属性来说,应该进行归一化,变
谱聚类(Spectral Clustering, SC)
谱聚类(Spectral Clustering, SC)是一种基于图论的聚类方法——将带权无向图划分为两个或两个以上的最优子图,使子图内部尽量相似,而子图间距离尽量距离较远,以达到常见的聚类的目 的.其中的最优是指最优目标函数不同,可以是割边最小分割——如图1的Smallest cut(如后文的Min cut), 也可以是分割规模差不多且割边最小的分割——如图1的Best cut(如后文的Normalized cut). 图1 谱聚类无向图划分——Smallest cut和Best cut 这样
简单易学的机器学习算法——谱聚类(Spectal Clustering)
一.复杂网络中的一些基本概念 1.复杂网络的表示 在复杂网络的表示中,复杂网络可以建模成一个图,其中,表示网络中的节点的集合,表示的是连接的集合.在复杂网络中,复杂网络可以是无向图.有向图.加权图或者超图. 2.网络簇结构 网络簇结构(network cluster structure)也称为网络社团结构(network community structure),是复杂网络中最普遍和最重要的拓扑属性之一.网络簇是整个网络中的稠密连接分支,具有同簇内部节点之间相互连接密集,不同簇的节点之间相互连接
化学键|甘氨酸|谷氨酸|半胱胺酸|motif|domain|疏水相互作用|序列相似性|clustering analysis|Chou and Fasman|GOR|PHD|穿线法|first-principle ab initio folding|
生命组学 对Protein的分析可以从Sequence到structure到function,最后研究interaction. Structure: 化学键形成骨架,化学元素的选取基于合成蛋白质选择容易获取的元素,氨基酸化学元素的选取决定了其结构,其结构又决定了function.氨基酸的组织结构可以解释其function:甘氨酸最小,所以可以放到不同位置:谷氨酸顺反式都有,所以便于结构调整:半胱胺酸因有二硫键而连接紧密. 蛋白质有four levels:一级结构由共价键连接,sequence与结
系统聚类法
1. 概述 系统聚类法也称为多层次聚类法,分类的单位由高到低呈树状结构,且所处的位置越低其包含的样本点就越少,共同特征越多.这种方法适合于数据量较小的情况,当数据量较大时系统聚类法的速度较慢. 2. 算法核心思想 其做法是开始时把每个样品作为一类,然后把最靠近的两个或若干个样品(即距离最小的群品)首先聚为小类,再将已聚合的小类按其类间距离合并(两两或若干),不断继续下去,最后把一切子类都聚合到一个大类. 3. 算法实现步骤 以n个样本的聚类分析为例,系统聚类法的步骤如下: 1.计算n个样本两两之
Science14年的聚类论文——Clustering by fast search and find of density peaks
这是一个比较新的聚类方法(文章中没看见作者对其取名,在这里我姑且称该方法为local density clustering,LDC),在聚类这个古老的主题上似乎最近一些年的突破不大,这篇文章算是很好的了,方法让人很有启发(醍醐灌顶),并且是发表在Science上,受到的关注自然非常大. 本文的核心亮点:1是用比较新颖的方法来确定聚类中心,2是采用距离的local density来进行聚类的划分.在这两点中,常见的Kmeans算法采用的方法是:用每一类的均值作为中点,用距离的最近的点来确定聚类划分