coursera上的公开课《https://www.coursera.org/course/textanalytics》系列,讲的非常不错哦。
1、text clustering的总体思想:
类似于topic mining,但要求每个text只有一个主题构成!
To generate a document, firstchoose a theta_i according to p(theta_i),
and then generateall words in the document using p(w|theta_i) 。
2、text clustering和topic mining的文本产生公式的区别:
每个document的产生有区别:
语料库产生无差别:
给定documents collection C={d1,...,dn},则都是:
3、EM algorithm for text clustering:
4、(An Example of 2 Clusters for)EM text clustering:
版权声明:本文为博主原创文章,未经博主允许不得转载。
时间: 2024-11-03 19:42:56