Topic modeling【经典模型】

http://www.cs.princeton.edu/~blei/topicmodeling.html

Topic models are a suite of algorithms that uncover the hidden thematic structure in document collections. These algorithms help us develop new ways to search, browse and summarize large archives of texts.

Below, you will find links to introductory materials, corpus browsers based on topic models, and open source software (from my research group) for topic modeling.

Introductory materials

Corpus browsers based on topic models

The structure uncovered by topic models can be used to explore an otherwise unorganized collection. The following are browsers of large collections of documents, built with topic models.

  • 100-topic browser of the dynamic topic model fit to Science (1882-2001).
  • 100-topic browserof the correlated topic model fit to Science (1980-2000)
  • 50-topic browser of latent Dirichlet allocation fit to the 2006 arXiv.
  • 20-topic browserof latent Dirichlet allocation fit to The American Political Science Review

Also see Sean Gerrish‘s discipline browser for an interesting application of topic modeling at JSTOR.

To build your own browsers, see Allison Chaney‘s excellent Topic Model Visualization Engine(TMVE). For example, here is a browser of 100,000 Wikipedia articles that uses TMVE.

Topic modeling software

Our research group has released many open-source software packages for topic modeling. Please post questions, comments, and suggestions about this code to the topic models mailing list.

Link Model/Algorithm Language Author Notes
lda-c Latent Dirichlet allocation C D. Blei This implements variational inference for LDA.
class-slda Supervised topic models for classifiation C++ C. Wang Implements supervised topic models with a categorical response.
lda R package for Gibbs sampling in many models R J. Chang Implements many models and is fast . Supports LDA, RTMs (for networked documents), MMSB (for network data), and sLDA (with a continuous response).
online lda Online inference for LDA Python M. Hoffman Fits topic models to massive data. The demo downloads random Wikipedia articles and fits a topic model to them.
online hdp Online inference for the HDP Python C. Wang Fits hierarchical Dirichlet process topic models to massive data. The algorithm determines the number of topics.
tmve(online) Topic Model Visualization Engine Python A. Chaney A package for creating corpus browsers. See, for example,Wikipedia.
ctr Collaborative modeling for recommendation C++ C. Wang Implements variational inference for a collaborative topic models. These models recommend items to users based on item content and other users‘ ratings.
dtm Dynamic topic models and the influence model C++ S. Gerrish This implements topics that change over time and a model of how individual documents predict that change.
hdp Hierarchical Dirichlet processes C++ C. Wang Topic models where the data determine the number of topics. This implements Gibbs sampling.
ctm-c Correlated topic models C D. Blei This implements variational inference for the CTM.
diln Discrete infinite logistic normal C J. Paisley This implements the discrete infinite logistic normal, a Bayesian nonparametric topic model that finds correlated topics.
hlda Hierarchical latent Dirichlet allocation C D. Blei This implements a topic model that finds a hierarchy of topics. The structure of the hierarchy is determined by the data.
turbotopics Turbo topics Python D. Blei Turbo topics find significant multiword phrases in topics.

Topic modeling【经典模型】

时间: 2024-09-28 15:21:11

Topic modeling【经典模型】的相关文章

用GibbsLDA做Topic Modeling

http://weblab.com.cityu.edu.hk/blog/luheng/2011/06/24/%E7%94%A8gibbslda%E5%81%9Atopic-modeling/#comment-87 Topic Modeling是一种文本挖掘的方法.将文本视作一个由许多许多词组成的数据库,就能通过分析哪些词经常在一起出现,哪些词出现的多,等等手段来探测文本中隐含的主题.比如,有一万篇文章,人工对这些文章进行分类,提取主题是十分浩大的工程.但是如果能用计算机来实现的话,对于社会科学研

【BZOJ 3232】圈地游戏 二分+SPFA判环/最小割经典模型

最小割经典模型指的是“一堆元素进行选取,对于某个元素的取舍有代价或价值,对于某些对元素,选取后会有额外代价或价值”的经典最小割模型,建立倒三角进行最小割.这个二分是显然的,一开始我也是想到了最小割的那个模型的但是我觉得他会不是一个圈我就否掉了,但是仔细想想的话会发现,如果是这样的话所得到的答案一定小于等于一个圈的答案(浓度),所以我们可定会得到最终答案,所以这样做是可以的,所以说要有宽松得正解的意识(泥沙俱下但沙子不影响我泥).当时我否掉最小割以后就立马去想费用流了,然后想到建图后发现那样建图虽

【神经网络篇】--基于数据集cifa10的经典模型实例

一.前述 本文分享一篇基于数据集cifa10的经典模型架构和代码. 二.代码 import tensorflow as tf import numpy as np import math import time from tutorials.image.cifar10 import cifar10 from tutorials.image.cifar10 import cifar10_input # 本节使用的数据集是CIFAR-10,这是一个经典的数据集,包含60000张32*32的彩色图像,

【Keras篇】---利用keras改写VGG16经典模型在手写数字识别体中的应用

一.前述 VGG16是由16层神经网络构成的经典模型,包括多层卷积,多层全连接层,一般我们改写的时候卷积层基本不动,全连接层从后面几层依次向前改写,因为先改参数较小的. 二.具体 1.因为本文中代码需要依赖OpenCV,所以第一步先安装OpenCV 因为VGG要求输入244*244,而数据集是28*28的,所以需要通过OpenCV在代码里去改变. 2.把模型下载后离线放入用户的管理目录下面,这样训练的时候就不需要从网上再下载了 3.我们保留的是除了全连接的所有层. 4.选择数据生成器,在真正使用

【LA3487】最小割-经典模型 两种方法

题目链接 题意:A.B两个公司要买一些资源(他们自己买的资源不会重复),一个资源只能卖给一个公司.问最大收益. simple input 部分: 54 1 //买到1就给54元 15 2 33 3 2 4 5//买到4.5就给2元 题解:这道题是很经典的模型题,在这里给出两个方法. 方法一 把每个询问看成一个点,然后A的询问连源点,B的询问连汇点,如果AB间的某个询问有矛盾就在它们中间连一条无限大的边,ans=sum-最小割. // 方法一 把每个询问看成一个点,然后A的询问连源点,B的询问连汇

机器学习经典模型简单使用及归一化(标准化)影响测试

俗话说的好,不动手就永远不知道该怎么做,上次一听说要做这个的时候人都懵了,听了几次似乎都摸不到门道,这次花了几天时间去写了写,总算是摸到了点门道. 实验 数据集 这次用到的数据集是跟火电厂有关的,都是匿名特征,数据量为20160*170,做到最后发现只根据时间顺序就能做的比较好. 归一化 先来讲讲归一化.归一化也称标准化,是数据挖掘的一项基础工作,使用归一化的原因大体如下 数据存在不同的评价指标,其量纲或量纲单位不同,处于不同的数量级.解决特征指标之间的可比性,经过归一化处理后,各指标处于同一数

经典模型——并查集解决区间/树链染色问题

蒟蒻的第一篇blog 模型背景: 已知一个长度为n的序列,开始时序列的每一个元素都没有颜色(0),现进行m次操作,第i次操作将一段区间[l,r]中还未被染色的点(即a[i]=0的点)染成颜色i.问m次操作后这个区间长什么样子,并将它输出来. 数据规模约定:对于100%的数据,n,m<=10^6 问题解决 我会nm暴力! 对于每一个操作i,暴力扫描[l,r],染色,最后输出. ※期望得分:10. 并查集!没想到吧 用并查集来维护从节点i往后的区间[i,n]中第一个0出现的位置,也就是i之后第一个还

区间DP经典模型

http://blog.csdn.net/y990041769/article/details/24238547 先附上一个链接 后面有引用的代码 概述 区间 DP:是指在一段区间上进行的一系列动态规划. 对于区间 DP 这一类问题,我们需要计算区间 [1,n] 的答案,通常用一个二维数组 dp 表示,其中 dp[x][y] 表示区间 [x,y]. 有些题目,dp[l][r] 由 dp[l][r-1] 与 dp[l+1][r] 推得; 也有些题目,我们需要枚举区间 [l,r]内的中间点,由两个子

hdu4253 二分+MST (经典模型)

n个点,m条边,边分为A,B两类,要构造一棵最小生成树,且树中A边数量为k. 我们可以通过给所有A边加上权值dx来控制树中A边的数量.显然,当dx增大,A边数量kk会减少. 二分dx, 当kk>=k,增大dx(即l=mid+1),同时更新ans=sum(mst)-mid*k; 当kk<k,减小dx(即r=mid-1). 1 #include<cstdio> 2 #include<cstring> 3 #include<algorithm> 4 using n