word2vec剖析,资料整理备存

声明:word2vec剖析,资料整理备存,以下资料均为转载,膜拜大神,仅作学术交流之用。

word2vec是google最新发布的深度学习工具,它利用神经网络将单词映射到低维连续实数空间,又称为单词嵌入。词与词之间的语义相似度可以通过两个单词的嵌入向量之间的余弦夹角直接衡量。同时作者Tomas Mikolov发现了比较有趣的现象,就是单词经过分布式表示后,向量之间依旧保持一定的语法规则,比如简单的加减法规则。

1.将文本语料进行分词,以空格,tab隔开都可以,中文分词工具可以使用张华平博士的NLPIR2013http://ictclas.nlpir.org/  喜欢用Python 的童鞋也可以使用结巴分词https://github.com/fxsjy/jieba


2.将分好词的训练语料进行训练,假定我语料名称为test.txt且在word2vec目录中。输入命令:



./word2vec -train test.txt -output vectors.bin -cbow 0 -size 200 -window 5 -negative 0 -hs 1 -sample 1e-3 -threads 12 -binary 1

以上命令表示的是输入文件是test.txt,输出文件是vectors.bin,不使用cbow模型,默认为Skip-Gram模型。 每个单词的向量维度是200,训练的窗口大小为5就是考虑一个词前五个和后五个词语(实际代码中还有一个随机选窗口的过程,窗口大小<=5)。不使用NEG方法,使用HS方法。-sampe指的是采样的阈值,如果一个词语在训练样本中出现的频率越大,那么就越会被采样。-binary为1指的是结果二进制存储,为0是普通存储(普通存储的时候是可以打开看到词语和对应的向量的)除了以上命令中的参数,word2vec还有几个参数对我们比较有用比如-alpha设置学习速率,默认的为0.025. –min-count设置最低频率,默认是5,如果一个词语在文档中出现的次数小于5,那么就会丢弃。-classes设置聚类个数,看了一下源码用的是k-means聚类的方法。



·         架构:skip-gram(慢、对罕见字有利)vs CBOW(快)

·         训练算法:分层softmax(对罕见字有利)vs 负采样(对常见词和低纬向量有利)

欠采样频繁词:可以提高结果的准确性和速度(适用范围1e-3到1e-5)

·         文本(window)大小:skip-gram通常在10附近,CBOW通常在5附近


3.训练好模型之后,得到vectors.bin这个模型文件。vectors.bin这个文件就是文档中词语和其对应的向量,这个向量的维度是你训练时设置的参数大小。下面我们可以利用这个model做很多自然语言处理的任务了。

目前网络上有大量的实践文章和理论分析文章。主要列举如下:
理论分析文章:
Deep Learning实战之word2vec

Deep Learning in NLP (一)词向量和语言模型

word2vec傻瓜剖析

word2vec学习+使用介绍

实践部分:

利用中文数据跑Google开源项目word2vec

分词工具ANSJ(实例)

Word2vec在事件挖掘中的调研

时间: 2024-10-19 18:18:53

word2vec剖析,资料整理备存的相关文章

编程珠玑之关键字(1)--《c语言深度剖析》整理(转)

一.最快关键字register 关键字regiter请求编译器尽可能的将变量存在CPU的寄存器中.有几点注意的地方. 1.register变量必须是能被CPU寄存器所接受的类型,这通常意味着register变量必须是一个单个的值,并且其长度应小于或等于整型的长度. 但是,有些机器的寄存器也能存放浮点数. 2.register变量可能不存放在内存中,所以不能用取址符运算符“ & ”. 3.只有局部变量和形参可以作为register变量,全局变量不行. 4.静态变量不能定义为register.  总

MySQL常用指令,java,php程序员,数据库工程师必备。程序员小冰常用资料整理

MySQL常用指令,java,php程序员,数据库工程师必备.程序员小冰常用资料整理 MySQL常用指令(备查) 最常用的显示命令: 1.显示数据库列表. show databases; 2.显示库中的数据表: use mysql; show tables; 3.显示数据表的结构: describe 表名; 4.建库: create database 库名; 5.建表: use 库名: create table 表名 (字段设定列表): 6.删库和删表: drop database 库名; dr

git命令整理备忘

git命令整理备忘 参考https://www.liaoxuefeng.com/wiki/0013739516305929606dd18361248578c67b8067c8c017b000 一.基本命令 打开 git bash #创建本地 git 仓库: $ cd /home/object $ git init #添加文件 $ git add readme.md #跟踪整个文件夹可以使用 git add . $ git commit -m'说明' #提交 add 到的文件 $ git comm

不错的Nodejs或者JS资料整理

资料整理 Node.js官网 - 可以下载到Node.js以及查看官方文档 Node.js教程 - 菜鸟教程网 Javascript模块化编程(一):模块的写法 - 阮一峰老师的日志,很值得看 CommonJS官网 requireJS官网 - AMD规范在其中 seaJS官网 - CMD规范在其中 request模块 cheerio模块

iOS开发资料整理

Please help me contribute to this list, for non-experience iOS developers or someone who need a come-in-handy library list to refer or to use in their projects. Fork, edit and send a PR are all things you can do! Table of Contents UI Component// UI组件

iOS 开发学习资料整理(持续更新)

"如果说我看得比别人远些,那是因为我站在巨人们的肩膀上." ---牛顿 iOS及Mac开源项目和学习资料[超级全面] http://www.kancloud.cn/digest/ios-mac-study/84557 iOS 学习资料整理 https://segmentfault.com/a/1190000002473595#articleHeader16 iOS.mac开源项目及库 https://github.com/Tim9Liu9/TimLiu-iOS Swift语言 http

mql4资料整理

mql4资料整理 开发工具和SDK相关 http://codebase.mql4.com/cn/在该页面的左边有MeteTrader 5 和 页面 MT4的开发工具下载 开发资料1. 参考文档http://docs.mql4.com/cn/ 2.其它相关bloghttp://www.cnblogs.com/niniwzw/category/212678.htmlhttp://www.cnblogs.com/niniwzw/tag/MQL4/3.其它相关资源学习列表http://search.do

Doxygen资料整理

@author          作者@brief             摘要@version         版本号@date             日期@file                文件名,可以默认为空,DoxyGen会自己加@class             类名@param           函数参数@return           函数返回值描述@exception      函数抛异常描述@warning         函数使用中需要注意的地方@remarks

zz 圣诞丨太阁所有的免费算法视频资料整理

首发于 太阁实验室 关注专栏 写文章 圣诞丨太阁所有的免费算法视频资料整理 Ray Cao· 12 小时前 感谢大家一年以来对太阁实验室的支持,我们特地整理了在过去一年中我们所有的原创算法类视频,均为免费观看,方便大家学习. 先放一个ACM大神讲解的算法题视频(国外传优酷真的是太不容易了……). ACM大神精讲北美最新面试题—在线播放—优酷网,视频高清在线观看http://v.youku.com/v_show/id_XMTg2ODk0MzIwMA==.html 其余视频: [公开课]ACM大神精