训练分词模型

1. 训练的文件
segmentor_train.txt

文件内容，用空格分隔词

中国 进出口 银行 与 中国 银行 加强 合作
新华社 北京 十二月 二十六日 电 （ 记者 周根良 ）

今日 三 大 股指 均 小幅 低开，随后 沪深指数 在 权重板块 集体 拉升 的 带动 下 小幅 上涨，但 创业板 却 出现 持续性 的 下跌。
午后 权重 跳水 导致 沪深指数 也 出现 一波杀跌，创业板 表现 却 迥异，盘中 没有 一波 拉升，今日 一度 大跌 3%。

从 盘面 上 看，今日 权重 板块 依然 独领风骚，银行，券商，地产 大幅 上涨，但 保险板块 今日 表现 不佳，保险股 涨幅 平淡。
今日 国信证券（002736），西部证券（002673）双双涨停，海通证券（600837），国元证券（000728），中信证券（600030）也有 不俗 表现。银行股 方面，仅有 一直 中信银行 （601998） 涨停。

上证指数   涨跌幅

2. 运行类edu.stanford.nlp.ie.crf.CRFClassifier

Eclipse Run设置

训练模型的参数
-prop chinese_models/edu/stanford/nlp/models/segmenter/chinese/ctb.prop
-serDictionary chinese_models/edu/stanford/nlp/models/segmenter/chinese/dict-chris6.ser.gz
-sighanCorporaDict chinese_models/edu/stanford/nlp/models/segmenter/chinese/
-trainFile segmentor_train.txt
-serializeTo chinese_models/edu/stanford/nlp/models/segmenter/chinese/newmodel.ser.gz

参数说明
prop: ctb.prop, ctb表示Chinese Penn Treebank, 宾州中文词库
serDictionary: ??
sighanCorporaDict: ??
trainFile: 你自己的训练预料文件
serializeTo: 模型存储位置
需要大于1g内存: Xmx1g

3. 生成的模型文件在以下目录
chinese_models/edu/stanford/nlp/models/segmenter/chinese/newmodel.ser.gz

4. 运行分词测试用例
edu.stanford.nlp.lxf.segmentor/SegDemo.java

时间： 2024-10-21 22:52:56

训练分词模型

训练分词模型的相关文章

8、在fa时，用HW200句的monophone.mmf和data/list/mono.list作为一个充分训练的模型文件，进行fa

华为云EI ModelArts，从0到1开发训练AI模型，通过“极快”和“极简”实现普惠AI

python爬虫：抓取新浪新闻内容（从当前时间到之前某个时间段），并用jieba分词，用于训练自己的分词模型

使用感知机训练加法模型

TensorFlow教程03：针对机器学习初学者的MNIST实验——回归的实现、训练和模型评估

tflearn kears GAN官方demo代码——本质上GAN是先训练判别模型让你能够识别噪声，然后生成模型基于噪声生成数据，目标是让判别模型出错。GAN的过程就是训练这个生成模型参数！！！

PyQt训练BP模型时，显示waiting动图（多线程）

[caffe(二)]Python加载训练caffe模型并进行测试2

语音识别系统语言模型的训练和声学模型的改进