weka 初练之文本分类

0.注意weka的中文编码
RunWeka.ini-----》fileEncoding=utf-8
1.首先对分词后的无新词发现的分词文件，转换成arff文件命令
java weka.core.converters.TextDirectoryLoader -dir D:\weibo\catagory\data10W\nlpirSegment\noNI > D:\weibo\catagory\data10W\nlpirSegment\weka\wb10w.arff
发现转换特别快
2.打开上面的文件进行生成词向量，首先选择通过特征的有无，1000特征/每类文档，最后保存当前文件 wb10w_vsm_true_false_weight.arff
生成6千多个特征
3.打开上面的arrf文件，进行特征选择，评估策略选择 IG，搜索策略选择Ranker 特征数5000，保存文件wb10w_as_true_false_weight.arrf
4.bayes 分类器 66训练数据结果复制到 result文件中

时间： 2024-10-23 13:58:43

weka 初练之文本分类的相关文章

基于weka的文本分类实现

weka介绍参见 1)百度百科:http://baike.baidu.com/link?url=V9GKiFxiAoFkaUvPULJ7gK_xoEDnSfUNR1woed0YTmo20Wjo0wYo7uff4mq_wg3WzKhTZx4Ok0JFgtiYY19U4q 2)weka官网: http://www.cs.waikato.ac.nz/ml/weka/ 简单文本分类实现: 此处文本为已处理好的文本向量空间模型,关于文本特征提取主要是基于TF-IDF算法对已分词文档进行特征抽取,然后基于

用深度学习（CNN RNN Attention）解决大规模文本分类问题 - 综述和实践

转自https://zhuanlan.zhihu.com/p/25928551 近来在同时做一个应用深度学习解决淘宝商品的类目预测问题的项目,恰好硕士毕业时论文题目便是文本分类问题,趁此机会总结下文本分类领域特别是应用深度学习解决文本分类的相关的思路.做法和部分实践的经验. 业务问题描述: 淘宝商品的一个典型的例子见下图,图中商品的标题是"夏装雪纺条纹短袖t恤女春半袖衣服夏天中长款大码胖mm显瘦上衣夏".淘宝网后台是通过树形的多层的类目体系管理商品的,覆盖叶子类目数量达上万个,商品量也

文本分类之特征描述vsm和bow

当我们尝试使用统计机器学习方法解决文本的有关问题时,第一个需要的解决的问题是,如果在计算机中表示出一个文本样本.一种经典而且被广泛运用的文本表示方法,即向量空间模型(VSM),俗称“词袋模型”. 我们首先看一下向量空间模型如何表示一个文本: 空间向量模型需要一个“字典”:文本的样本集中特征词集合,这个字典可以在样本集中产生,也可以从外部导入,上图中的字典是[baseball, specs, graphics,..., space, quicktime, computer]. 有了字典后便可以表示

转：文本分类问题

作者:西瓜军团链接:https://www.zhihu.com/question/58863937/answer/166306236来源:知乎著作权归作者所有.商业转载请联系作者获得授权,非商业转载请注明出处. 一.传统文本分类方法文本分类问题算是自然语言处理领域中一个非常经典的问题了,相关研究最早可以追溯到上世纪50年代,当时是通过专家规则(Pattern)进行分类,甚至在80年代初一度发展到利用知识工程建立专家系统,这样做的好处是短平快的解决top问题,但显然天花板非常低,不仅费时费力,覆

【搜索引擎（四）】文本分类

Q1. 为什么搜索引擎要用到文本分类? 搜索引擎要处理海量文本,人工分类不现实,机器的自动分类对提高文本的分类效率至少起到了一个基准的效果.另外,文本分类跟搜索引擎系统可以进行信息互通,文本分类的输入是文本,输出可以是标签或者是否从属于某个分类. Q2.文本分类基础算法文本分类基础算法与机器学习.人工智能.数据挖掘中用到的算法都是联系紧密的,它从属的自然语言处理也正是人工智能的分支.你可能会想到文本分类肯定要用到基础的分类器,而且在更复杂的情况下可能还要用到人工智能的一些学习方法,比如双向LS

《机器学习系统设计》之应用scikit-learn做文本分类（下）

前言: 本系列是在作者学习<机器学习系统设计>([美] WilliRichert)过程中的思考与实践,全书通过Python从数据处理,到特征工程,再到模型选择,把机器学习解决问题的过程一一呈现.书中设计的源代码和数据集已上传到我的资源:http://download.csdn.net/detail/solomon1558/8971649 第3章通过词袋模型+K均值聚类实现相关文本的匹配.本文主要讲解K-均值聚类相关知识以及在20newsgroup数据集上使用K-均值聚类进行测试. 相关

文本分类——机器学习常用工具

文本分类现已比较成熟,各类开源工具不少,现推荐几个比较常用简单的工具: 1.scikit-learn:http://scikit-learn.org/stable/index.html python编写调用,里面有各种分类算法svm.随机森林.贝叶斯等,和特征提取,如字.ngram等,几行代码便可以构建一个分类任务. 2.WEKA:http://www.cs.waikato.ac.nz/ml/index.html 具有图形界面,但是感觉速度有点慢 3.libsvm :http://www.csi

BERT 预训练模型及文本分类

BERT 预训练模型及文本分类介绍如果你关注自然语言处理技术的发展,那你一定听说过 BERT,它的诞生对自然语言处理领域具有着里程碑式的意义.本次试验将介绍 BERT 的模型结构,以及将其应用于文本分类实践. 知识点语言模型和词向量 BERT 结构详解 BERT 文本分类 BERT 全称为 Bidirectional Encoder Representations from Transformer,是谷歌在 2018 年 10 月发布的语言表示模型.BERT 通过维基百科和书籍语料组成的庞

Spark ML下实现的多分类adaboost+naivebayes算法在文本分类上的应用

1. Naive Bayes算法朴素贝叶斯算法算是生成模型中一个最经典的分类算法之一了,常用的有Bernoulli和Multinomial两种.在文本分类上经常会用到这两种方法.在词袋模型中,对于一篇文档$d$中出现的词$w_0,w_1,...,w_n$, 这篇文章被分类为$c$的概率为$$p(c|w_0,w_1,...,w_n) = \frac{p(c,w_0,w_1,...,w_n)}{p(w_0,w_1,...,w_n)} = \frac{p(w_0,w_1,...,w_n|c)*p(c

猜你喜欢

Spring IoC入门

------------------siwuxie095 Spring IoC 环境搭建 1.先下载相关库文件,下载链接: (1)http://projects.spring.io/spring-fr ...

CentOS7.2 安装RabbitMQ

CentOS上面使用yum安装比较方便先记录一些rabbitmq的基本操作命令: $ sudo chkconfig rabbitmq-server on # 添加开机启动RabbitMQ服务 $ s ...

第四天随笔

第四天笔记 1.循环结构概述: 可以反复执行,同一段程序循环是需要一定条件的,条件结果是真,循环继续进行当你不需要循环的时候,条件结果改成假,循环就停止了 2.for循环写法格式: For(初始 ...

利用Python调用HBASE

利用Python调用HBASE的需要安装thrift hbase-thrift 启动hbase的thrift服务:bin/hbase-daemon.sh start thrift 默认端口是9090 ...

UT源码_105032014033

需求描述: 设计佣金问题的程序 commission方法是用来计算销售佣金的需求,手机配件的销售商,手机配件有耳机(headphone).手机壳(Mobile phone shell).手机贴膜(Ce ...

HttpClient 4.3连接池参数配置及源码解读

目前所在公司使用HttpClient 4.3.3版本发送Rest请求,调用接口.最近出现了调用查询接口服务慢的生产问题,在排查整个调用链可能存在的问题时(从客户端发起Http请求->ESB-&g ...

多媒体查询

一.设置Meta标签通过这个标签属性,我们可以很方便的在不同的设备下实现丰富的界面,特别是移动设备,将会运用更加的广泛.首先我们在使用Media的时候需要先设置下面这段代码,来兼容移动设备的展示效果 ...

hdu 1267 下沙的沙子有几粒？ (递推)

下沙的沙子有几粒? Time Limit: 2000/1000 MS (Java/Others) Memory Limit: 65536/32768 K (Java/Others)Total S ...

DNS域名解析服务之（二）

使用BIND构建缓存域名服务器在上一节中DNS服务器的相关知识,BIND软件包的安装以及DNS服务器的配置文件组成,配置格式等.下面分别讲解构建缓存域名服务器的方法缓存域名服务器通常架设在公司的局 ...

做为一个用过很多编程语言的人，我不看好Go语言

Go在不知不觉中在国内崛起了,然而网上有文章说,Go在国外不怎么样,却在国内的关注度很高,当然我没有考证过,不做评论.这篇文章主要是从语言本身客观的说下Go的问题 Go的设计者宣称Go大道至简,的确, ...

sharepoint ECMA using a custom contentType to creating a list in SubSite

Using a custom contentType to creating a list: function GetContentType() { var clientContext = new S ...

JavaScript字符串转换成数字的三种方法

在js读取文本框或者其它表单数据的时候获得的值是字符串类型的,例如两个文本框a和b,如果获得a的value值为11,b的value值为9 ,那么a.value要小于b.value,因为他们都是字符串形 ...

七牛大数据平台的演进与大数据分析实践--转

原文地址:http://www.infoq.com/cn/articles/qiniu-big-data-platform-evolution-and-analysis?utm_source=info ...

常用测试管理工具对比

本文简介: 对于中小企业来说,选择一款适合的测试管理工具或者工具集合石走向规划管理的必经之路,本文从以下几个方面对目前流行的几款工具:1.QC(QC是TC的升级版,QC的升级版QC 11就是ALM11 ...

Asp.NET MVC 之调试访问 webservice 时出现“ 无法找到资源 ”的错误

问题情景如标题,具体错误如下图: 出现以上情况,是程序将 .asmx 文件按控制器方式解析了,在 RouteConfig.cs 文件的 RegisterRoutes 方法中忽略 .asmx 文件,&q ...

.net 简单反射应用

var attributes = typeof(MyClass).GetCustomAttributes(typeof(TestAttribute), true); //MyClass 表示引用特性的 ...

如何调整cell的大小

一般情况下,我们使用tableview的时候从来没有设置过cell的大小(w,h).位置(x,y)等,而是系统直接给我们自动生成,但是有的时候我们可能会改动cell的大小及位置,比如:在适配ios6跟 ...

sql server where、group by、order by 执行顺序

2012-02-07 19:39 先where 条件1,再 group by 条件2再 order by 条件3 如果声明了 GROUP BY 子句,输出就分成匹配一个或多个数值的不同组里. 如果出现 ...

fzu 1150 Farmer Bill's Problem

#include<stdio.h> #include<string.h> #include<algorithm> using namespace std; int ...

实验报告结对项目

实验报告一.程序题是: 有1.2.3.4.5.6.7个数字,能组成多少个互不相同且无重复数字的三位数?都是多少? 二.程序分析:输出的是无重复数字的三位数,那么首先应该解决在一个数组中,一个数字绝对 ...

专题

随机推荐

© 2024 憋错料 | info#biecuoliao.com | 10 q. 0.024 s.