[论文]A Link-Based Approach to the Cluster Ensemble Problem

论文作者:Natthakan Iam-On, Tossapon Boongoen, Simon Garrett, and Chris Price

下次还是在汇报前先写了论文总结,不然有些点汇报时容易忘了说,以前看的论文看补不补上来吧,有时间再说。

前言:

这篇论文是关于聚类集成的,成熟的聚类集成框架是将多个聚类算法的结果汇聚在一起,然后使用一致性函数得出最终的聚类结果,论文中认为这两步中间的操作属于原数据上的操作,比较粗糙,所以提出了一种算法,对汇总后聚类结果进行进一步处理,然后再使用一致性函数。

Summary:

  • This paper presents a new link-based approach to improve the conventional matrix.
  • Three new link-based algorithms are proposed for the underlying similarity assessment.
  • The final clustering result is generated from the refined matrix using two different consensus functions of feature-based and graph-based partitioning.

conventional matrix 就是前言中提到的汇总结果。

这个算法目的是发现一个样本在一个聚类结果中与不属于的类 之间的关系(similarity)。

提炼后的矩阵称为RA matrix ,在这个矩阵上进行一致性曹组有两种方法,基于feature 和基于图切。

对汇总矩阵的提炼的方法一共有三种。

It aims to refine the ensemble-information matrix using the similarity between clusters in the ensemble under examination.

  ?Weighted Connected-Triple (WCT)

  ?Weighted Triple-Quality (WTQ)

  ?Combined Similarity Measure (CSM)

一致性函数有两种:

two new consensus methods are proposed to derive the ultimate clustering result:

  ? feature-based partitioning (FBP)

  ? bipartite graph partitioning (BGP)

下面是一些属性讲解,其实看图比较清楚,一共有N 个样本点,聚类集成框架中使用了M 个聚类方法,得到的结果为π,每个聚类结果π的类个数不一样,使用C 表示:

X ={x1 . . . xN} be a set of N data points

Π={Π 1 . . . ΠM} be a cluster ensemble with M base clusterings

Each base clustering returns a set of clusters

a 图是样本的两个聚类情况,π1 π2 ,那么可以有3中结果汇众的表达b-d,后面用得上的是d 图,d图这个矩阵就是作者认为的粗糙聚类结果。

N = 5                    样本总数

M = 2                    集成框架中的聚类方法个数

K1 = 3,K2 = 2        每个聚类方法中的聚类个数

一个聚类集成问题:

The problem is to find a new partition π* of a data set X that summarizes the information from the cluster ensemble πfinal.

This metalevel method involves two major tasks of:

?1) generating a cluster ensemble

?2) producing the final partition (normally referred to as a “consensus function”).

为了获取不同的聚类结果,大致归纳如下的聚类模型:

Cluster models:

?Homogeneous ensembles

?Different-k

  ?One of the most successful technique is randomly selecting the number of clusters (k) for each ensemble member

?Data subspace/subsample

?Heterogeneous ensembles

?Mixed heuristics

?  In addition to using one of the aforementioned methods, any combination of them can be applied

而一致性函数归纳如下:

}consensus methods :

?Feature-based approach

  It transforms the problem of cluster ensembles to the clustering of categorical data.

?Direct approach

?Pairwise similarity approach

?Graph-based approach

论文的创新点就是在这两部中间加入了一步提炼:

NOVEL LINK-BASED APPROACH:

?1) generating a cluster ensemble

?2)creating the refined ensemble-information matrix using a link-based similarity algorithm

?3) producing the final partition (normally referred to as a “consensus function”).  

计算RA 矩阵公式,在粗糙矩阵下我们可以先知道如下结果,RA 其实就是将d 图中的0,改为 xi 与 C 的相似度,这就是提炼的意思,方法是通关过计算xi属于的类与目标C 的相似度,然后用这个值作为xi 与目标C 的相似度,这就代替了0.

这个算法计算前需要先计算π1 与 π2 中类之间的相似度,是两个π之间,π内之间的类相似度怎么算就是这个算法解决的问题。

Lz ∈ X denotes the set of data points belonging to cluster Cz ∈ π.

公式如下:

图示:

C11 类有样本: x1 x2   C21 类有样本: x1 x3

<C11,C21> = {x1}/{x1 x2 x3} = 1/3

在上面的基础上,开始讲解这个算法,算法有3中计算一个聚类中 类间的similary:

Weighted Connected-Triple (WCT):

  ?WCT extends the Connected-Triple method.

  ?Formally, a triple, Triple =(Vtriple ,Etriple), is a subgraph of G’ containing three vertices VTriple ={vx,vy,vz} ∈V and two edges ETriple ={exz,eyz} ∈E, with exz ∉ E.

  ?DC ∈[0,1]is a constant decay factor

第一条就是 计算xy点关于z 点得到他们之间的similary,xy 是属于一个聚类类结果的类标号,z 是其他聚类结果的类标号。

第二条就是第一条结果的叠加。

第三条就是正规化后加上约束因子,因为RA-matrix 直接知道的结果为1,计算similarity 的应该小一点。

图示,这就把RA 矩阵补全了,例如x3 与C11 的项取值,就是Xz 属于的类(C12)与 C11 之间的similarity,即0.9

}Weighted Triple-Quality (WTQ)

  ?WTQ is inspired by the initial measure of which evaluates the association between personal home pages.

  ?Note that the method gives high weights to rare features and low weights to features that are common to most of the pages.

Nz ∈V denotes the set of vertices that is directly linked to the vertex vz such that ∨vt ∈Nz; |wzt| > 0.

第一条就是 xy 关于 z 的权重,该式分母其实就是与z 有相关的w 之和。

其他跟上面的一样的。

Combined Similarity Measure (CSM):

  With the objective of obtaining a robust similarity evaluation, this particular algorithm combines the WCT and WTQ measures previously described.

将上面两种方法结合成第三种。

一致性方法的选择:

Consensus Methods for the RA Matrix:

  ?Feature-Based Partitioning

    ?k-means    (KM)

    ?k-medoids (PAM)

?

  ?Bipartite Graph Partitioning

?    weight  SPEC graph-partitioning

实验结果就不说了,有兴趣的可以下论文能看。

时间: 2024-10-09 16:59:03

[论文]A Link-Based Approach to the Cluster Ensemble Problem的相关文章

[论文]A Link-Based Cluster Ensemble Approach for Categorical Data Clustering

http://www.cnblogs.com/Azhu/p/4137131.html 这篇论文建议先看了上面这一遍,两篇作者是一样的,方法也一样,这一片论文与上面的不同点在于,使用的数据集是目录数据,即数据不能数字化,例如: An example of categorical attribute is Sex={fmale,female} or shape= {circle,rectangle. . .}. 论文方法一样,只是处理目录数据不同,获得聚类结果的选择方法如下: Type I 意思是直

英文会议论文改稿指导笔记

1. 审稿人的关注点 n 好文章:想法好.表达好.语言好 n 对于会议论文,由于篇幅和审稿时间的限制,一篇文章以讨论一个方法.解决一个问题为好. n 审稿人是志愿者,他们不一定与你来自同一领域,所以不要直接进入主题,而是要讲清楚问题的来龙去脉,如果审稿人在读你的文章时感到有收获,你的文章会因此得分 n 审稿人手头经常会积累很多论文待审,所以文章一定要简明易读 n 审稿的典型的顺序是:题目→作者→摘要→结论→图表→参考文献→引言,审稿人看参考文献经常是看他/她的论文是否被引用,至此,正文还没看,审

hdu 1426 Sudoku Killer ( Dancing Link 精确覆盖 )

利用 Dancing Link 来解数独 具体的可以看    lrj 的训练指南 和 < Dancing Links 在搜索中的应用 >这篇论文 Dancing Link 来求解数独 , 是通过求解精确覆盖 精确覆盖就是给出一个 01 矩阵 , 要求我们选择一些行 , 使得每一列有且仅有一个 1 对于数独问题 , 行就是我们的选择 , 即在第 i 行 第 j 列 放上 数字 k , 所以我们最多有 i * j * k 中选择 如果某些位置( x , y  )已经放了数字 a , 那么我们的选择

判别模型的玻尔兹曼机论文源码解读

前言 三号要去参加CAD/CG会议,投了一篇关于使用生成模型和判别模型的RBM做运动捕捉数据风格识别的论文.这段时间一直搞卷积RBM了,差点把原来的实验内容都忘记了,这里复习一下判别式玻尔兹曼机的训练流程. 国际惯例,贴几个链接: 论文1--Energy Based Learning Classification task using Restricted Boltzmann Machines 链接:http://pan.baidu.com/s/1i5foeEx 密码:flq7 论文2--Cla

DLRS(近三年深度学习应用于推荐系统论文汇总)

转自:http://www.cnblogs.com/suanec/p/6640815.html 感谢分享! Recommender Systems with Deep Learning Improving Scalability of Personalized Recommendation Systems for Enterprise Knowledge Workers– Authors: C Verma, M Hart, S Bhatkar, A Parker (2016)Multi-moda

Position Based Dynamics【译】

绝大部分机翻,少部分手动矫正,仅供参考.本人水平有限,如有误翻,概不负责... Position Based Dynamics Abstract The most popular approaches for the simulation of dynamic systems in computer graphics are force based. Internal and external forces are accumulated from which accelerations are

CVPR 2017 Paper list

CVPR2017 paper list Machine Learning 1 Spotlight 1-1A Exclusivity-Consistency Regularized Multi-View Subspace Clustering Xiaojie Guo, Xiaobo Wang, Zhen Lei, Changqing Zhang, Stan Z. Li Borrowing Treasures From the Wealthy: Deep Transfer Learning Thro

简单易学的机器学习算法——基于密度的聚类算法DBSCAN

一.基于密度的聚类算法的概述 最近在Science上的一篇基于密度的聚类算法<Clustering by fast search and find of density peaks>引起了大家的关注(在我的博文"论文中的机器学习算法--基于密度峰值的聚类算法"中也进行了中文的描述).于是我就想了解下基于密度的聚类算法,熟悉下基于密度的聚类算法与基于距离的聚类算法,如K-Means算法之间的区别. 基于密度的聚类算法主要的目标是寻找被低密度区域分离的高密度区域.与基于距离的聚

jQuery源码

/*! * jQuery JavaScript Library v1.8.3 * http://jquery.com/ * * Includes Sizzle.js * http://sizzlejs.com/ * * Copyright 2012 jQuery Foundation and other contributors * Released under the MIT license * http://jquery.org/license * * Date: Tue Nov 13 20