最近试了一下Word2Vec, GloVe 以及对应的python版本 gensim word2vec 和 python-glove,就有心在一个更大规模的语料上测试一下,自然而然维基百科的语料进入了视线。维基百科官方提供了一个很好的维基百科数据源:https://dumps.wikimedia.org,可以方便的下载多种语言多种格式的维基百科数据。此前通过gensim的玩过英文的维基百科语料并训练LSI,LDA模型来计算两个文档的相似度,所以想看看gensim有没有提供一种简便的方式来处理维基百科数据,训练word2vec模型,用于计算词语之间的语义相似度。感谢Google,在gensim的google group下,找到了一个很长的讨论帖:training word2vec on full Wikipedia ,这个帖子基本上把如何使用gensim在维基百科语料上训练word2vec模型的问题说清楚了,甚至参与讨论的gensim的作者Radim ?eh??ek博士还在新的gensim版本里加了一点修正,而对于我来说,所做的工作就是做一下验证而已。虽然github上有一个wiki2vec的项目也是做得这个事,不过我更喜欢用python gensim的方式解决问题。
关于word2vec,这方面无论中英文的参考资料相当的多,英文方面既可以看官方推荐的论文,也可以看gensim作者Radim ?eh??ek博士写得一些文章。而中文方面,推荐 @licstar的《Deep Learning in NLP (一)词向量和语言模型》,有道技术沙龙的《Deep Learning实战之word2vec》,@飞林沙 的《word2vec的学习思路》, falao_beiliu 的《深度学习word2vec笔记之基础篇》和《深度学习word2vec笔记之算法篇》等。
继续阅读 →
发表在 自然语言处理, 语义相似度, 语言模型 | 标签为 gensim, gensim word2vec, glove, Mecab, python gensim, python glove, python word2vec, word2vec, word2vec实验, word2vec应用, word2vec模型, word2vec相似度, word2vec相似度计算, word2vec词语相似度, 中文分词, 中文繁简转换, 中文维基百科语料, 中文编码转换, 文档相似度, 深度学习, 相似度, 维基百科,维基百科语料, 英文维基百科语料, 词语相似度, 语义相似度, 语言模型 | 一条评论
HMM相关文章索引
发表于 2015年03月7号 由 52nlp
HMM系列文章是52nlp上访问量较高的一批文章,这里做个索引,方便大家参考。
HMM学习
- HMM学习最佳范例五:前向算法
- HMM学习最佳范例五:前向算法1
- HMM学习最佳范例五:前向算法2
- HMM学习最佳范例五:前向算法3
- HMM学习最佳范例五:前向算法4
- HMM学习最佳范例五:前向算法5
- HMM学习最佳范例六:维特比算法
- HMM学习最佳范例六:维特比算法1
- HMM学习最佳范例六:维特比算法2
- HMM学习最佳范例六:维特比算法3
- HMM学习最佳范例六:维特比算法4
- HMM学习最佳范例六:维特比算法5
- HMM学习最佳范例七:前向-后向算法
- HMM学习最佳范例七:前向-后向算法1
- HMM学习最佳范例七:前向-后向算法2
- HMM学习最佳范例七:前向-后向算法3
- HMM学习最佳范例七:前向-后向算法4
- HMM学习最佳范例七:前向-后向算法5
- HMM学习最佳范例八:总结
HMM相关
HMM应用
- HMM词性标注
- HMM在自然语言处理中的应用一:词性标注1
- HMM在自然语言处理中的应用一:词性标注2
- HMM在自然语言处理中的应用一:词性标注3
- HMM在自然语言处理中的应用一:词性标注4
- HMM在自然语言处理中的应用一:词性标注5
- HMM在自然语言处理中的应用一:词性标注6
- HMM中文分词
- Itenyh版-用HMM做中文分词一:序
- Itenyh版-用HMM做中文分词二:模型准备
- Itenyh版-用HMM做中文分词三:前向算法和Viterbi算法的开销
- Itenyh版-用HMM做中文分词四:A Pure-HMM 分词器
- Itenyh版-用HMM做中文分词五:一个混合的分词器