mahout 形式转换

对于文本信息的向量化,Mahout 已经提供了工具类,它基于 Lucene 给出了对文本信息进行分析,然后创建文本向量。mahout提供下面两个命令来将文本转成向量形式(转化成向量后可以聚类):
1.mahout seqdirectory:将文本文件转成SequenceFile文件,SequenceFile文件是一种二制制存储的key-value键值对,对应的源文件是org.apache.mahout.text.SequenceFilesFromDirectory.java

2.mahout seq2sparse:将SequenceFile转成向量文件,对应的源文件是org.apache.mahout.vectorizer.SparseVectorsFromSequenceFiles.java

生成的向量文件目录结构是:

df-count 目录:保存着文本的频率信息 
tf-vectors 目录:保存着以 TF 作为权值的文本向量 
tfidf-vectors 目录:保存着以 TFIDF 作为权值的文本向量 
tokenized-documents 目录:保存着分词过后的文本信息 
wordcount 目录:保存着全局的词汇出现的次数 
dictionary.file-0 目录:保存着这些文本的词汇表 
frequcency-file-0 目录 : 保存着词汇表对应的频率信息。

查看转化结果:

mahout seqdumper:将SequenceFile文件转成文本形式,对应的源文件是org.apache.mahout.utils.SequenceFileDumper.java
mahout vectordump:将向量文件转成可读的文本形式,对应的源文件是org.apache.mahout.utils.vectors.VectorDumper.java
mahout clusterdump:分析最后聚类的输出结果,对应的源文件是org.apache.mahout.utils.clustering.ClusterDumper.java具体每种命令如何用及参数如何选择,在命令行后面加-h或-help可以查看

时间: 2025-01-03 22:24:00

mahout 形式转换的相关文章

图像形式转换

//图形转换 Bitmap=>Image private System.Windows.Controls.Image Bitmap2Image(System.Drawing.Bitmap Bi) { MemoryStream ms = new MemoryStream(); Bi.Save(ms, System.Drawing.Imaging.ImageFormat.Png); BitmapImage bImage = new BitmapImage(); bImage.BeginInit();

linux网络通信中的地址形式转换

对于IPv4协议来说,ip是一个32位的整数,对于IPv6来说,ip是一个128位的整数.在内存中,ip都以二进制的形式存储,但是不易于观察,所以 可以转化将其转化为点分十进制的表达形式. 在linux中,提供了 ip二进制和点分十进制互相转化的函数: inet_ntop 将二进制转化为点分十进制,af表示使用的协议,AF_INET表示使用的是IPv4,AF_INET6表示使用的IPv6,src是一个表示ip的 struct in_addr的结构体,dst是用来存储ip点分十进制形式的字符串,s

Java将小数形式转换成分数形式

import java.util.Scanner; public class ChangeToFenshuDemo { public static int getGongYueShu(int a, int b) {//求两个数的最大公约数 int t = 0; if(a < b){ t = a; a = b; b = t; } int c = a % b; if(c == 0){ return b; }else{ return getGongYueShu(b, c); } } public st

数字形式转换

1.1,2,3,4,5怎样修改成01,02,03,04,05 d = "%02d" % i for i in range(1,5): d = "%02d" % i print d

Oracle 时间 MM-dd形式转换

SELECT TO_CHAR( SYSDATE,'MM-dd') AS beginTime,TO_CHAR( TO_DATE(MAX(C.SUBSCRIBE_DATE),'YYYY-MM-dd'),'MM-dd') AS endTime from TableName

QT中常用数据之间转换

其实这个网上已经有很多的了,在这里写一下,只是给自己记录下,免得以后找不全,或者一时半会找不到自己想要的.持续跟新中...... 1. int.float.double转成QString 方法1. 使用QString::number(); long a = 63; QString s = QString::number(a, 10);             // s == "63" QString t = QString::number(a, 16).toUpper();     /

pdf转换成jpg!不一样的转换, 不一样的效果!

从某种意义上来说,pdf转换成jpg是有很多种解决方法的,不过是将pdf变成图片而已,我们QQ截图都能能做到的事.可是就过程及结果而言,pdf转jpg需要的是每一页图片的完整.清晰,pdf转换jpg也不能当成一份正式工作花费太多的时间,所以,在工作中还是需要运用其它的转换方法.      1.请打开电脑,双击进入浏览器,输入"迅捷在线pdf转换器",然后点击进入pdf在线转换官方网站. 2.在网站首页大家可以看见多种不同格式转换类型,网站顶部菜单栏同样标识着转换功能,请在界面中点击选择

类中属性返回形式(对象,关联数组,索引数组)

class A { public $x, $y; function __construct($x, $y)  { $this->x = $x; $this->y = $y; } function get_value($arr = true)  { if($arr == 'arr')   { // 类中属性以关联数组形式转换返回 return get_object_vars($this); }else if($arr == 'obj')   { //类中属性以对象形式返回 return $thi

基于Clang的Source to Source源代码转换(一)

Clang中包含了非常多的关于抽象语法树(AST)的访问和操作的类和接口.我们程序开发人员可以直接通过继承其中的某些类,重写其中的关键成员方法,从而形成我们自己的对抽象语法树的操作. 那么,首先我们简要介绍几个概念: 抽象语法树(AST):抽象语法树是源代码的抽象语法结构的树状表现形式.树上的每个节点都表示源代码中的一种结构.之所以说语法是“抽象”的,是因为这里的语法并不会表示出真实语法中出现的每个细节.一般的,在源代码的翻译和编译过程中,语法分析之后会创建出抽象语法树.一旦AST被创建出来,在