Mallet 使用说明

Mallet:自然语言处理工具包

发表于128 天前 ? 技术科研 ? 评论数 6 ? 被围观 1006 Views+

MALLET是基于java的自然语言处理工具箱,包括分档得分类、句类、主题模型、信息抽取等其他机器学习在文本方面的应用,虽然是文本的应用,但是完全可以拿到多媒体方面来,例如机器视觉。

MALLET包含了足够的文本分类的算法,还有特征提取的算法等。文本分类的算法像是Na?ve Bayes, Maximum Entropy, and Decision Trees等,而且也对代码做了优化。

MALLET也包含sequence tagging的工具和算法,例如信息抽取的应用等,算法有Hidden Markov Models, Maximum Entropy Markov Models, and Conditional Random Fields.

MALLET也包含主题模型:topic modeling toolkit contains efficient, sampling-based implementations of Latent Dirichlet Allocation, Pachinko Allocation, and Hierarchical LDA.

MALLET当然还有其他功能,很强大。下面是api和一个pdf的链接:[API] [教程]。

==============关于MALLET的安装配置==================

这里有一个安装配置的说明,我把它转载过来了:

Mallet 使用说明

Mallet是专门用于机器学习方面的软件包,此软件包基于java。通过mallet工具,可以进行自然语言处理,文本分类,主题建模。文本聚类,信息抽取等。下面是从如何配置mallet环境到如何使用mallet进行介绍。

一.实验环境配置

1.       下载并安装JDK,并正确设置环境变量

需设置三个环境变量:

2        JAVA_HOME:该环境变量的值就是Java所在的目录,

例如C:\Program Files\Java\jdk1.6.0_10

2        PATH:指定一个路径列表,用于搜索可执行文件。

该环境变量值为:%JAVA_HOME%\bin

2       CLASSPATH:指定一个路径列表,是用于搜索Java 编译或者运行时需要用到的类。该环境变量的值为:%JAVA_HOME%\lib\tools.jar;%JAVA_HOME%\lib\dt.jar

2       运行àcmd

2        分别输入javac和java,没有出错则表示配置成功。

2.       下载apache-ant,不需安装,只需正确设置环境变量。

apache-ant是一个基于Java的编译工具。

2       下载 http://ant.apache.org/bindownload.cgi,解压 放到你要的目录

2       配置

ANT_HOME:设置为apache-ant的解压目录,例如:C:\server\apache-ant-1.8.0
             classpath: %ANT_HOME%\lib

Path :%ANT_HOME%\bin

2       测试

2       运行àcmd

2        输入 ant

结果如下则表示配置成功

Buildfile: build.xml does not exist!
Build failed

3.下载mallet 最新版本mallet-2.0.5,地址:http://mallet.cs.umass.edu/download.php

配置环境变量:

2        MALLET_HOME=MALLET的解压目录,例如C:\mallet

2        Path中添加 %MALLET_HOME%\bin

2        classpath:%mallet_home%\class;%mallet_home%\lib;%mallet_home%\lib\mallet-deps.jar

2       运行àcmd,进入到mallet的解压目录

2        输入 ant

如果出现Build successful字样,则表示配置成功

二.Mallet简要说明

全称:MAchine Learning for LanguagE Toolkit

Mallet是一java的软件包,专门用于统计自然语言处理,文本分类,主题建模,信息抽取,以及其它涉及文本的机器学习方面的应用。

a)         文本分类:它的基本思想是,用大量的训练样本训练分类器,再用些测试样本测试分类器的性能,然后保存训练好的分类器模型。当将未知类别的文本输入已训练好的分类模型时,可输出此未知类别样本所属各个类别的的概率。

b)        主题建模:主题建模用于分析大量的未标示(类别未知)的文本。通过分析这些文本,可以得出一些(个数可指定,也可默认)主题,每个主题由一些经常出现在一起的词组成。可以保存建模好的主体模型,以备推断一未知文本所属主题时所用。

c)        Mallet可以把文本转换为数学上的表达形式,从而更有效的对文本进行机器学习。这个过程是通过“管道(pipe)”系统实现的,它可以进行分词,移除停用词,把序列转换为向量等方面的操作。具体代码可见mallet\src\cc\mallet\pipe。

三.Mallet使用步骤

文本分类:

 

1.      C:\mallet>mallet import-dir --input sample-data\classify-input\* --output classify-input.mallet

此命令等价于:

C:\mallet>java cc.mallet.classify.tui.Text2Vectors --input sample-data\ classify-input \* --output classify-input.vectors

此命令是把classify-input(此名称可以根据自己的需要改,我在此命名此文件夹名为classify-input)目录下的文件夹中的所有数据转为特征向量的形式,mallet可用已转换好的数据格式进行训练、测试分类器等操作。

注:在此,classify-input下有三个文件夹,分别为sport、science、food。执行此命令后,系统会自动将数据分为三类,类别名称为sport、science、food,三个文件夹下的数据类别分别于所属文件夹名称一一对应。

2.      C:\mallet>mallet train-classifier --input classify-input.mallet --trainer NaiveBayes --training-portion 0.8 --output-classifier classifier1.classifier

此命令等价于:

C:\mallet>java cc.mallet.classify.tui.Vectors2Classify --input classify-input.vectors --trainer NaiveBayes --training-portion 0.8 --output-classifier classifier1.classifier

此命令是训练、测试分类器。--input参数的值classify-input.mallet是第一步中生成的特征向量,--trainer参数的值NaiveBayes是指训练分类器的算法,可以指定其他算法,例如MaxEnt等。--training-portion参数的值这里是0.8,可以根据需要设定,0.8的意思是随机抽取classify-input.mallet数据中的80%当训练数据,剩下的当测试数据,用于测试已训练好的分类器的准确性等等性能指标。--output-classifier参数的值classifier1.classifier是所存已训练好的分类器的名称。

3.      C:\mallet>java cc.mallet.classify.tui.Text2Classify --input sample-data\data\ classify-test.txt --output - --classifier classifier1.classifier

此命令是用已训练好的分类器来对一未知类别文本进行分类。--input参数值sample-data\data\ classify-test.txt是要进行分类的未知类别文本的位置。--output后面参数值“-”意思是直接在命令行中输出所属各个类别的概率。--classifier参数的值是指使用的分类器名称(即,训练好的分类器)。

注:对未知类别文本进行分类时不需进行数据预处理,直接输入文本即可,文本中一行代表一个分类实例。

主题建模

 

1. C:\mallet>mallet import-dir --input sample-data\topic-input --output topic-input.mallet --keep-sequence --remove-stopwords

此命令是将topic-input目录下的所有文本转换为特征序列,--keep-sequence参数必须有,否则会出错,因为主题建模时所用数据源就是特征序列,而不是特征向量,所以必须用--keep-sequence此参数来限制转换数据的格式。--remove-stopwords的意思是移除停用词。

2. C:\mallet>mallet train-topics --input topic-input.mallet --num-topics 2 --output-doc-topics docstopics --inferencer-filename infer1.inferencer

此命令是用第一步的数据进行主题建模,参数--num-topics的值2意思是限定主题个数为2,可以根据需要设置其他值,默认的主题数为10.。--output-doc-topics参数的意思是输出文档-主题矩阵,存到docstopics文件中。--inferencer-filename参数的意思是对将训练好的主题模型进行存储,以备后用,在此,此主题模型存到参数值infer1.inferencer中,可根据习惯自行命名。

3.     C:\mallet>mallet import-dir --input sample-data\data --output topic-test.mallet --keep-sequence  --remove-stopwords

同1说明。

4.     C:\mallet>mallet infer-topics --input topic-test.mallet --inferencer infer1.inferencer --output-doc-topics testdocstopics

用训练好的主题模型对未标示的文本topic-test进行主题推断。--inferencer参数的意思是用已经训练好的主题模型infer1.inferencer进行对未知文本的主题推断。--output-doc-topics参数的意思是输出文档-主题矩阵,存到docstopics文件中。

注:

2        文本分类时未知文本必须用一文档表示,文档中每行代表一分类实例。而主题建模时可以对单个文档主题建模,可以对一目录下的所有文档进行主题建模,例如主题建模第三步,可以用import-dir命令。

C:\mallet>mallet import-file --input sample-data\data\topic-test.txt --output topic-test.mallet --keep-sequence --remove-stopwords

2        import-file,import-dir,train-topics,infer-topics,train-classifier等等这些命令可以通过以下操作进行查询:

C:\mallet>mallet

查询每条命令的参数可以通过以下命令行操作进行:

例如C:\mallet>mallet import-dir --help

可以根据自己的需要选用参数。

参考:http://blog.csdn.net/xianggelilaling/article/details/5634815/

时间: 2024-08-09 10:29:50

Mallet 使用说明的相关文章

Linux系统下安装rz/sz命令及使用说明

对于经常使用Linux系统的人员来说,少不了将本地的文件上传到服务器或者从服务器上下载文件到本地,rz / sz命令很方便的帮我们实现了这个功能,但是很多Linux系统初始并没有这两个命令.今天,我们就简单的讲解一下如何安装和使用rz.sz命令. 1.软件安装 (1)编译安装 root 账号登陆后,依次执行以下命令: 1 cd /tmp 2 wget http://www.ohse.de/uwe/releases/lrzsz-0.12.20.tar.gz 3 tar zxvf lrzsz-0.1

android 布局之滑动探究 scrollTo 和 scrollBy 方法使用说明

涉及到滑动,就涉及到VIEW,大家都知道,android的UI界面都是由一个一个的View以及View的派生类组成,View作为基类,而常用的布局里面的各种布局就是它派生出来的ViewGroup的子类,ViewGroup作为各个组件的容器搭建了整体的UI.以下是android UI的结构示示意图: 查看源码 /** * Implement this to do your drawing. * * @param canvas the canvas on which the background w

Git使用说明

Git是流行的分布式版本控制系统,可以方便的管理多人协作的项目并避免了集中式版本控制系统对服务器的依赖. 简介 版本库(repository)是一个由Git管理的目录,Git将跟踪工作目录下文件的修改并在需要时还原. 在工作目录下.git子目录则维护着版本库 . Git维护三个组件: 工作目录: 保存实际文件 暂存区 : 保存尚未提交的修改 版本库: 保存已提交的修改 HEAD: 指向最后一次提交后的结果(checkout 命令的主要功能就是操作HEAD). Git将每次提交的修改串成一条时间线

软件使用说明

软件使用说明:我们的软件是一款基于在校女大学生的记账软件,根据调查身边的女生,统计出了大部分的女生每个月开销的分类.在我们的软件中按这些分类记录每个人的每天的开销,根据调查结果显示有部分学生还有收入,所以我们的记账软件还增加了收入项.我们软件可以根据你每天输入的开销来计算你每个月的开销,并且你可以在其中设置每个月开销的额度,根据你的开销对你的花销进行提醒.在每天你也可以收到关于你这一天开销的提醒,比如:提醒你录入,提醒你今天的花费是否超标.

IDEA工具使用说明

IDEA使用说明 1.安装 2.开始界面 1)create New Project (新建项目) 2)Import Project  (导入项目) 3)Open (打开已有的项目) 4)Check out from Version Control (从版本控制库中导入项目) 3.新建项目 1)方式一: 说明:左边的列表显示的是IDEA可以的项支持目种类,右边是需要额外添加的构面,选择好相应的构面,点击next. 说明:上面的一部分是制定项目的名称,下面一部分是制定项目中模块的名称.当创建了一个项

中海达RTK使用说明之两个点计算参数

中海达RTK求转换参数操作步骤,中海达GPS四参数计算,中海达HI-Survey参数计算简要操作,已知两个控制点求转换参数, 手薄型号:Ihand20 安卓系统手薄 软件:hi-survey road\elec 仪器:中海达公司任意RTK产品 使用两个点求转换参数流程: 第一步:碎步测量控制点 第二步:把两个控制点已知坐标输入到控制点库 第三步:计算参数 第四步:检核参数精度,测控制点作对比,或点放样控制点 使用两个点如何求转换参数? 如何选取控制点计算参数? 四参数控制范围只是计算选用的两个控

AC6102开发板USB3.0测试和使用说明

AC6102开发板USB3.0测试和使用说明 概述 AC6102上集成了一颗Cypress 推出的高性能USB3.0传输芯片CYUSB3014,Cypress称之为EZ-USBFX3.该芯片性能强劲,功能强大,接口简单,非常适合用于各种需要高速数据传输的场合,以下为摘自EZ-USBFX3数据手册中关于该芯片的介绍: 赛普拉斯EZ-USBFX3是新一代USB3.0外设控制器,具有高度集成的灵活特性,可帮助开发人员为任何系统添加USB3.0功能.EZ-USBFX3具有一个可进行完全配置的并行通用可编

Retrofit结合RxJava使用说明

PS:年后一直没有更新博客,实在是太忙了.今天周六也是终于抽出了时间,就决定写一篇Retrofit结合RxJava使用说明.刚好现在写的的项目中也有用到,趁热打铁简单说说.最近也不知道博客写什么内容,大家有什么想了解的内容,也可以评论告诉我,我尽力解答. 如果对Retrofit不了解可以看我之前的一篇博客:Retrofit 2.0使用 ,这次的内容也是在此基础上的.关于RxJava可以参考:学习RxJava(资料汇总),这里我就不多说了. 1.准备工作 我们需要添加相应的依赖: compile

CUDA Driver API 使用说明

CUDA Driver API 使用说明 1. 简介 CUDA Driver API是在CUDA动态库(libcuda.so)中实现.若在eclipse环境中开发时,需要添加libcuda.so文件所在的路径,并在程序中引用cuda.h文件. 2. 环境配置 2.1 源程序 对于Driver API的使用只需在源程序中include相应的头文件cuda.h,并在使用其它的Driver API之前,需要先调用cuInit()函数对Driver进行初始化,如下所示的程序. 1 #include <s