《textanalytics》课程简单总结(3):text clustering

coursera上的公开课《https://www.coursera.org/course/textanalytics》系列,讲的非常不错哦。

1、text clustering的总体思想:

类似于topic mining,但要求每个text只有一个主题构成

To generate a document, firstchoose a theta_i according to  p(theta_i),
and then generateall words in the document using p(w|theta_i) 。

2、text clustering和topic mining的文本产生公式的区别:

每个document的产生有区别:

语料库产生无差别:

给定documents collection C={d1,...,dn},则都是:

3、EM algorithm for text clustering:

4、(An Example of 2 Clusters for)EM text clustering:

版权声明:本文为博主原创文章,未经博主允许不得转载。

时间: 2024-11-03 19:42:56

《textanalytics》课程简单总结(3):text clustering的相关文章

《textanalytics》课程简单总结(2):topic mining

coursera上的公开课<https://www.coursera.org/course/textanalytics>系列,讲的非常不错哦. 1."term as topic"有很多问题: 2.Improved Idea: Topic = Word Distribution: 3.定义问题(Probabilistic Topic Mining and Analysis): 4.解决问题之道(Generative Model for Probabilistic Topic 

《textanalytics》课程简单总结(4):课程总结

coursera上的公开课<https://www.coursera.org/course/textanalytics>系列,讲的非常不错哦. 最后讲了文本分类,和plsa的几种变形,包括: opinion mining和sentiment analysis:Ordinal Logistic Regression opinion mining和sentiment analysis:Latent Aspect Rating Analysis Contextual Text Mining: Con

《textanalytics》课程简单总结(1):两种word relations——Paradigmatic vs. Syntagmatic

coursera上的公开课<https://www.coursera.org/course/textanalytics>系列,讲的很不错哦. 1.两种关系:Paradigmatic vs. Syntagmatic(聚合和组合) ? Paradigmatic:  A & B have paradigmatic relation if they can be substituted for each other (i.e., A & B are in the same class)

《textanalytics》课程简单总结(1):两种word relations——Paradigmatic vs. Syntagmatic(续)

coursera上的公开课<https://www.coursera.org/course/textanalytics>系列,讲的非常不错哦. 3.挖掘Syntagmatic(组合)关系: 有时间再总结.. 版权声明:本文为博主原创文章,未经博主允许不得转载.

php课程---简单的分页练习

在写代码时,我们可以用类来使代码更加方便简洁,下面是一个简单的查询分页练习 源代码: <html> <head> <style type="text/css"> .p1 { color:yellow; background-color:#00F; font-size:14px; } </style> </head> <body> <?php header("Content-Type:text/htm

Android课程---简单的音乐播放器

第一个:用Activity实现 activity_music_play1.xml <?xml version="1.0" encoding="utf-8"?> <LinearLayout xmlns:android="http://schemas.android.com/apk/res/android" xmlns:tools="http://schemas.android.com/tools" androi

CSS简单常用的text 文本样式

字体大小.text{ font-size:40px;} 字体颜色.text{ color:#22a534;} 字体样式.text{ font-family: 华文行楷;} 斜体.text{ font-style: italic;} 加粗.text{ font-weight: 600; }

机器学习课程-第8周-聚类(Clustering)

1. 聚类(Clustering) 1.1 无监督学习: 简介 在一个典型的监督学习中,我们有一个有标签的训练集,我们的目标是找到能够区分正样本和负样本的决策边界,在这里的监督学习中,我们有一系列标签,我们需要据此拟合一个假设函数.与此不同的是,在非监督学习中,我们的数据没有附带任何标签,我们拿到的数据就是这样的: 在非监督学习中,我们需要将一系列无标签的训练数据,输入到一个算法中,然后我们告诉这个算法,快去为我们找找这个数据的内在结构给定数据.我们可能需要某种算法帮助我们寻找一种结构.图上的数

超简单的sublime text 2注册方法

help---enter license 输入注册码后点击按钮就可以了 ----- BEGIN LICENSE ----- Andrew Weber Single User License EA7E-855605 813A03DD 5E4AD9E6 6C0EEB94 BC99798F 942194A6 02396E98 E62C9979 4BB979FE 91424C9D A45400BF F6747D88 2FB88078 90F5CC94 1CDC92DC 8457107A F151657B