训练分词模型

1. 训练的文件
segmentor_train.txt

文件内容,用空格分隔词

中国 进出口 银行 与 中国 银行 加强 合作
新华社 北京 十二月 二十六日 电 ( 记者 周根良 )

今日 三 大 股指 均 小幅 低开,随后 沪深指数 在 权重板块 集体 拉升 的 带动 下 小幅 上涨,但 创业板 却 出现 持续性 的 下跌。
午后 权重 跳水 导致 沪深指数 也 出现 一波杀跌,创业板 表现 却 迥异,盘中 没有 一波 拉升,今日 一度 大跌 3%。

从 盘面 上 看,今日 权重 板块 依然 独领风骚,银行,券商,地产 大幅 上涨,但 保险板块 今日 表现 不佳,保险股 涨幅 平淡。
今日 国信证券(002736),西部证券(002673)双双涨停,海通证券(600837),国元证券(000728),中信证券(600030)也有 不俗 表现。银行股 方面,仅有 一直 中信银行 (601998) 涨停。

上证指数   涨跌幅

2. 运行类edu.stanford.nlp.ie.crf.CRFClassifier

Eclipse Run设置

训练模型的参数
-prop chinese_models/edu/stanford/nlp/models/segmenter/chinese/ctb.prop
-serDictionary chinese_models/edu/stanford/nlp/models/segmenter/chinese/dict-chris6.ser.gz
-sighanCorporaDict chinese_models/edu/stanford/nlp/models/segmenter/chinese/
-trainFile segmentor_train.txt
-serializeTo chinese_models/edu/stanford/nlp/models/segmenter/chinese/newmodel.ser.gz

参数说明
prop: ctb.prop, ctb表示Chinese Penn Treebank, 宾州中文词库
serDictionary: ??
sighanCorporaDict: ??
trainFile: 你自己的训练预料文件
serializeTo: 模型存储位置
需要大于1g内存: Xmx1g

3. 生成的模型文件在以下目录
chinese_models/edu/stanford/nlp/models/segmenter/chinese/newmodel.ser.gz

4. 运行分词测试用例
edu.stanford.nlp.lxf.segmentor/SegDemo.java

时间: 2024-10-21 22:52:56

训练分词模型的相关文章

8、在fa时,用HW200句的monophone.mmf和data/list/mono.list作为一个充分训练的模型文件,进行fa

在对ZhiJun40句语料做fa时,ZhiJun_SpeakerA2_30-fa-New,用的是HW2000句的monophone.mmf和data/list/mono.list作为,一个标准的充分训练的模型文件,然后进行fa fa之后得到的是mono类型的标注文件,位于/gv/.../下面, 然后,用Ning的脚本得到full类型的标注, 然后就用这套标注,进行合成了,make一下 结果报错了: =============== ang ================ ERROR [+2121

华为云EI ModelArts,从0到1开发训练AI模型,通过“极快”和“极简”实现普惠AI

华为云EI ModelArts,从0到1开发训练AI模型,通过"极快"和"极简"实现普惠AI现如今 AI 技术.概念火爆.落地应用更是繁多,但开发呢?是否困难?到底有多痛?据了解,大部分 AI 开发者的工作时间并不长,并且十有八九可能不是"科班出身".从编写的教材.录制的课程中就可以看出,所有的教学都不可避免地带有很强的的学术性,即便有意避免研究导向,仍然离产业界的需求相去甚远.并且随着新一波人工智能的热潮,人们发现手里的数据多了,电脑运算的更快

python爬虫:抓取新浪新闻内容(从当前时间到之前某个时间段),并用jieba分词,用于训练自己的分词模型

新浪新闻内容采用的是ajax动态显示内容,通过抓包,发现如下规律: 每次请求下一页,js那一栏都会出现新的url: "http://api.roll.news.sina.com.cn/zt_list?channel=news&cat_1=gnxw&cat_2==gdxw1" "||=gatxw||=zs-pl||=mtjj&level==1||=2&show_ext=1&show_all=1&show_num=22&ta

使用感知机训练加法模型

感知机此处不介绍,这里只是简单的做了一个使用感知机思路,训练一个y=a+b计算模型. 1 # -*-coding:utf-8-*- 2 '@author: xijun.gong' 3 import numpy as np 4 import random 5 import math 6 7 8 class Perceptron: 9 def __init__(self, learnRate, maxIter, bit_len): 10 """ 11 :param bit_len

TensorFlow教程03:针对机器学习初学者的MNIST实验——回归的实现、训练和模型评估

实现回归模型 为了用python实现高效的数值计算,我们通常会使用函数库,比如NumPy,会把类似矩阵乘法这样的复杂运算使用其他外部语言实现.不幸的是,从外部计算切换回Python的每一个操作,仍然是一个很大的开销.如果你用GPU来进行外部计算,这样的开销会更大.用分布式的计算方式,也会花费更多的资源用来传输数据. TensorFlow也把复杂的计算放在python之外完成,但是为了避免前面说的那些开销,它做了进一步完善.Tensorflow不单独地运行单一的复杂计算,而是让我们可以先用图描述一

tflearn kears GAN官方demo代码——本质上GAN是先训练判别模型让你能够识别噪声,然后生成模型基于噪声生成数据,目标是让判别模型出错。GAN的过程就是训练这个生成模型参数!!!

GAN:通过 将 样本 特征 化 以后, 告诉 模型 哪些 样本 是 黑 哪些 是 白, 模型 通过 训练 后, 理解 了 黑白 样本 的 区别, 再输入 测试 样本 时, 模型 就可以 根据 以往 的 经验 判断 是 黑 还是 白. 与 这些 分类 的 算法 不同, GAN 的 基本 原理 是, 有两 个 相生相克 的 模型 Generator 和 Discriminator,Generator 随机 生成 样本, Discriminator 将 真实 样本 标记 为 Real, 将 Gene

PyQt训练BP模型时,显示waiting动图(多线程)

1.实现效果 2.相关代码 实现BP训练模型的线程类 1 class WorkThread(QtCore.QThread): 2 finish_trigger = QtCore.pyqtSignal() # 关闭waiting_gif 3 result_trigger = QtCore.pyqtSignal(pd.Series) # 传递预测结果信号 4 evaluate_trigger = QtCore.pyqtSignal(list) # 传递正确率信号 5 6 def __int__(se

[caffe(二)]Python加载训练caffe模型并进行测试2

#coding=utf-8 import h5py import numpy as np import caffe #1.导入数据 filename = 'testdata.h5' f = h5py.File(filename, 'r') n1 = f.get('data') n1 = np.array(n1) print n1[0] n2=f.get( 'label_1d') n2 = np.array(n2) f.close() #2.导入模型与网络 deploy='gesture_depl

语音识别系统语言模型的训练和声学模型的改进

一.训练语言模型 词与词之间存在着合乎句法与否的约束,语言模型就是用来表示这些约束的,它可以提供字与字之间的上下文信息和语义信息.N-gram模型,即对训练音频文件所对应的文本文件进行统计,提取不同字词之间先后发生的统计关系. 如果你的语言模型较小(例如小的语音指令集或者任务),而且是英文的,那就可以直接上CMU提供的网络服务器上面训练,如果较大的话,一般使用CMUclmtk语言模型工具来训练.下面分两种情况来介绍:1.1.利用在线工具建立语言模型 进入网址:http://www.speech.