利用Mallet工具自动挖掘文本Topic

LDA算法(Latent Dirichlet allocation)是Blei,Andrew NG,Jordan等在2003年左右发表的算法,主要是以一系列单词为输入,以一系列Topic单词作为输出。该算法不考虑单词之间的顺序关系,衍生出了很多以LDA为基础的算法。

对于小的单独的文本,可以使用在线工具Voyant:http://voyant-tools.org/,得到一张包含Topic的图片。

多种开源工具实现了LDA算法,如 Stanford Topic Modeling Toolbox(http://nlp.stanford.edu/software/tmt/tmt-0.4/)和Mallet(http://mallet.cs.umass.edu/download.php)。

Mallet的下载与安装:

http://mallet.cs.umass.edu/download.php

建议从github上clone,自行编译。

Step1:使用Mallet生成某个文件的topic的时候,需要将该文件的格式转化成mallet格式,使用下面的命令,所得的mallet文件是下一步的输入:

  bin/mallet import-dir --input path/to/the/dir/of/your/target/txt/file --output outputfile.mallet --keep-sequence --remove-stopwords

Step2:利用上面的结果,生成topic单词,及每个单词相关的单词:

  bin/mallet train-topics  --input outputfile.mallet --num-topics 20 --output-state topic-state.gz --output-topic-keys topic_file_keys.txt --output-doc-topics topic_file_topic.txt

上面的命令会生成20个topic单词,并且找出每个topic单词相关的单词,结果保存在topic_file_keys.txt中,topic_file_topic.txt中保存了各topic单词的权重。

时间: 2024-10-24 19:07:32

利用Mallet工具自动挖掘文本Topic的相关文章

axis2 利用小工具cat.aar

Axis2: Web Service是现在最适合实现SOAP的技术,而Axis2是实现Web Service的一种技术框架(架构). 昨天把把菜刀脚本打包发现<>在xml会被转义,导致菜刀客户端无法连接.看起来别人可以修改response类型,但是我没成功.利用之前发的Cat小工具打包成aar就可以玩了. axis2管理登陆默认配置了用户名为admin,密码axis2: axis2管理后台: 想要deploy 自己的应用需要先打成对应的aar.jar包.用eclipse安装axis2插件. S

写个js小工具自动生成博文目录

我们在写博客的时候,如果博文里面有目录,会给人结构清晰.一种一目了然的感觉,看目录就知道这篇博文要讲解的内容,并且点击目录标题就可以跳转到具体的内容,这样园友们在看博客的时候就可以很方便地浏览自己感兴趣的内容,但是遗憾的是博客园不支持博文目录的生成,好像也有园友给博客园提建议,希望能够像CSDN那样能够自动生成博文目录,但是不知道是什么原因,博客园一直都没有把这个功能加上去,既然没有,那我就自己做吧,研究了2天,总算是按照自己的设想做出来了,最终效果如下: 下面来介绍一下这个小工具的实现. 一.

利用jTessBoxEditor工具进行Tesseract3.02.02样本训练,提高验证码识别率,tesseract训练样本

http://www.bkjia.com/Pythonjc/1131343.html 利用jTessBoxEditor工具进行Tesseract3.02.02样本训练,提高验证码识别率,tesseract训练样本 1.背景 前文已经简要介绍tesseract ocr引擎的安装及基本使用,其中提到使用-l eng参数来限定语言库,可以提高识别准确率及识别效率. 本文将针对某个网站的验证码进行样本训练,形成自己的语言库,来提高验证码识别率. 2.准备工具 tesseract样本训练有一个官方流程说明

利用mtd工具实现嵌入式设备在线升级

版权声明:本文为博主原创文章,未经博主允许不得转载. 目录(?)[+] 主要思路是:通过web post方式将升级文件交给CGI程序处理,然后通过mtd工具实现设备在线升级. 1.页面部分 <form target="_blank" enctype="multipart/form-data" method="POST" action="./update.cgi"> <p>选择升级文件: <inpu

kail linux 系统下利用metaspolit工具渗透win7电脑

 注:只是测试,不可干违法的事. 一.metaspolit工具的介绍 1.1.metaspolit 是一款开源安全漏洞检测工具,附带数百个已知的软件漏洞,并保持频繁更新.被安全社区冠以“可以黑掉整个宇宙”之名的强大渗透测试框架. 1.2.Metasploit是一款开源的安全漏洞检测工具,同时Metasploit是免费的工具,因此安全工作人员常用Metasploit工具来检测系统的安全性. 1.3.Metasploit Framework (MSF) 在2003年以开放源码方式发布,是可以自由获取

利用extundelete工具恢复Centos6.5中误删除的文件

实验目的:利用extundelete工具恢复误删除的文件实验环境:在Linux系统中安装一台Centos6.5在Centos6.5中新增磁盘并创建分区,模拟删除并进行回复的操作设置文件共享权限,使虚拟机可使用宿主机上的文件(需要使用宿主机上的安装包)yum仓库提前安装完成,可直接使用实验安装包:e2fsprogs-libs-1.41.12-18.e16.x86_64.rpmlibcom err-devel-1.41.12-18.el6.x86_64.rpme2fsprogs-devel-1.41

利用EasySQLMAIL实现自动填写Excel表格并发送邮件(2)

利用EasySQLMAIL实现自动填写Excel表格并发送邮件 转自:http://blog.sina.com.cn/s/blog_1549483b70102witg.html 前一篇博文中记录了"利用EasySQLMAIL实现自动数据提取和邮件发送功能",里面的方法只能将SQL语句查询出来的数据一行一行地原样转换到Excel表格中.但我们有一些Excel表格的样式是设计好了的,比如这种表格: 表格中的单元格都是事前设计好的.每星期都需要执行几个SQL语句,并且把SQL语句的统计结果填

利用手机工具教你快速完成英语翻译在线翻译中文

利用手机工具教你快速完成英语翻译在线翻译中文?世界那么大,谁都想出去看看,可是当你遇到语言问题没法解决时,你还想出去看看吗?恐怕没人愿意,所以今天小编就为大家带来一个英语在线翻译为中文的方法,让你可以有出去看看的决心.1:打开手机翻译工具"语音翻译器"后,首先我们选择翻译模式,总共有语音翻译和文本翻译两种翻译模式,小编通常使用文本翻译模式,觉得不仅方便,而且很实用.2:选择源语种和目标语种,源语种选择中文,目标语种选择英文.3:当你想要进行翻译时,点击文本框,开始打字输入你想要进行翻译

利用htmlparser提取网页纯文本的例子

import org.htmlparser.Node; import org.htmlparser.NodeFilter; import org.htmlparser.Parser; importorg.htmlparser.filters.TagNameFilter; import org.htmlparser.tags.TableTag; import org.htmlparser.util.NodeList; /** * 标题:利用htmlparser提取网页纯文本的例子 */ publi