我爱自然语言处理[转]

最近试了一下Word2VecGloVe 以及对应的python版本 gensim word2vec 和 python-glove,就有心在一个更大规模的语料上测试一下,自然而然维基百科的语料进入了视线。维基百科官方提供了一个很好的维基百科数据源:https://dumps.wikimedia.org,可以方便的下载多种语言多种格式的维基百科数据。此前通过gensim的玩过英文的维基百科语料并训练LSI,LDA模型来计算两个文档的相似度,所以想看看gensim有没有提供一种简便的方式来处理维基百科数据,训练word2vec模型,用于计算词语之间的语义相似度。感谢Google,在gensim的google group下,找到了一个很长的讨论帖:training word2vec on full Wikipedia ,这个帖子基本上把如何使用gensim在维基百科语料上训练word2vec模型的问题说清楚了,甚至参与讨论的gensim的作者Radim ?eh??ek博士还在新的gensim版本里加了一点修正,而对于我来说,所做的工作就是做一下验证而已。虽然github上有一个wiki2vec的项目也是做得这个事,不过我更喜欢用python gensim的方式解决问题。

关于word2vec,这方面无论中英文的参考资料相当的多,英文方面既可以看官方推荐的论文,也可以看gensim作者Radim ?eh??ek博士写得一些文章。而中文方面,推荐 @licstar的《Deep Learning in NLP (一)词向量和语言模型》,有道技术沙龙的《Deep Learning实战之word2vec》,@飞林沙 的《word2vec的学习思路》, falao_beiliu 的《深度学习word2vec笔记之基础篇》和《深度学习word2vec笔记之算法篇》等。
继续阅读 →

发表在 自然语言处理语义相似度语言模型 | 标签为 gensimgensim word2vecgloveMecabpython gensimpython glovepython word2vecword2vecword2vec实验word2vec应用word2vec模型word2vec相似度word2vec相似度计算word2vec词语相似度中文分词中文繁简转换中文维基百科语料中文编码转换文档相似度深度学习相似度维基百科,维基百科语料英文维基百科语料词语相似度语义相似度语言模型一条评论

HMM相关文章索引

发表于 2015年03月7号 由 52nlp

HMM系列文章是52nlp上访问量较高的一批文章,这里做个索引,方便大家参考。

HMM学习

HMM相关

HMM应用

时间: 2025-01-03 20:29:21

我爱自然语言处理[转]的相关文章

python and 我爱自然语言处理

曾经因为NLTK的 缘故开始学习Python,之后渐渐成为我工作中的第一辅助脚本语言,虽然开发语言是C/C++,但平时的很多文本数据处理任务都交给了Python.离 开腾讯创业后,第一个作品课程图谱也 是选择了Python系的Flask框架,渐渐的将自己的绝大部分工作交给了Python.这些年来,接触和使用了很多Python工具包,特别是在文本 处理,科学计算,机器学习和数据挖掘领域,有很多很多优秀的Python工具包可供使用,所以作为Pythoner,也是相当幸福的.其实如果仔细留意微 博,你

转:资源 | 我爱自然语言处理

转自:http://www.52nlp.cn/resources 这里提供一些52nlp博客的一些系列文章以及收集的自然语言处理相关书籍及其他资源的下载,陆续整理中!如有不妥,我会做删除处理! 特别推荐系列: 1.HMM学习最佳范例全文文档,百度网盘链接: http://pan.baidu.com/s/1pJoMA2B 密码: f7az 2.无约束最优化全文文档 -by @朱鉴 ,百度网盘链接:链接: http://pan.baidu.com/s/1hqEJtT6 密码: qng0 3.PYTH

自然语言处理怎么最快入门?

http://www.zhihu.com/question/19895141 stanford NLP课程网址 https://class.coursera.org/nlp/lecture 14 个回答 赞同337反对,不会显示你的姓名 吴俣,自然语言处理民工 杨泽.林斌.王汪汪 等人赞同 推荐<数学之美>,这个书写得特别科普且生动形象,我相信你不会觉得枯燥.这个我极力推荐,我相信科研的真正原因是因为兴趣,而不是因为功利的一些东西. 接下来说,<统计自然语言处理基础>这本书,这书实

自然语言处理一些读书笔记和自己的思考。

在知乎上搜索相关问题,有人推荐<数学之美>,之前粗略看过一次,这次想重新看一下并且做个读书笔记.下面是关于自然语言理解方面的一些读书笔记和自己的思考. 一. 自然语言处理历史: 自然语言处理最初发展的20多年里,相关科学家都极力通过电脑模拟人脑,试图用这种方式来处理人类语言,但是这种方式被证明是行不通的,成功几乎为零.NLP发展的第二阶段是70年代之后,科学家们终于找到了基于数学模型和统计的方法. 第一阶段的时候,学术界对人工智能和自然语言理解的普遍认识是:要让机器完成翻译或者语音识别等等,必

几本自然语言处理入门书

如果你刚接触自然语言处理并对她感兴趣,最好读几本这方面的书籍,除了能让你知道自然语言处理各个领域是干什么的外,还能培养一下NLP的感觉.以下四本书是我读研期间阅读和接触过的,如果您还有好书推荐,欢迎补充. 1. <自然语言处理综论>(Speech and Language Processing: An Introduction to Natural Language Processing, Computational Linguistics and Speech Recognition) 这本

斯坦福大学深度学习与自然语言处理第一讲

我学习自然语言是从Christopher D.Manning的统计自然语言处理基础这本书开始的,很多文本分析也是应用统计方法,或者机器学习的方法,而近年来深度学习逐渐渗入各个领域,其在自然语言处理领域中也取得了令人惊叹的效果,这成功的引起了我的重视,决定学习一下.何其所幸,让我找到了斯坦福大学深度学习与自然语言的课程,深得我心啊,所以打算好好学习一下,鉴于我爱自然语言处理中有相关课程的slides,我就直接复制粘贴了,接下来打算做的工作是对该课程中推荐阅读的部分论文做一些笔记.本人才疏学浅,专业

自然语言处理资源总结

我爱自然语言,是自然语言的一个博客群 http://www.aclweb.org/anthology-new/ 自然语言问题列表 http://www.newsmth.net/bbsdoc.php?board=NLP 自然语言处理课程在线学习网站 https://www.coursera.org/ ACL Anthology,囊括了ACL,EMNLP,CL等NLP领域重要会议和期刊的论文. http://www.aclweb.org/anthology-new/ LDC: The Linguis

斯坦福大学深度学习与自然语言处理第二讲

第二讲:简单的词向量表示:word2vec, Glove(Simple Word Vector representations: word2vec, GloVe) 转载请注明出处及保留链接“我爱自然语言处理”:http://www.52nlp.cn 本文链接地址:斯坦福大学深度学习与自然语言处理第二讲:词向量 推荐阅读材料: Paper1:[Distributed Representations of Words and Phrases and their Compositionality]]

自然语言处理资源

http://www.52nlp.cn/resources 资源 这里提供一些52nlp博客的一些系列文章以及收集的自然语言处理相关书籍及其他资源的下载,陆续整理中!如有不妥,我会做删除处理! 特别推荐系列:1.HMM学习最佳范例全文文档,百度网盘链接: http://pan.baidu.com/s/1pJoMA2B 密码: f7az 2.无约束最优化全文文档 -by @朱鉴 ,百度网盘链接:链接:http://pan.baidu.com/s/1hqEJtT6 密码: qng0 3.PYTHON