很久以前关注过一段时间word2vec,最近比较好奇doc2vec,找来资料看看。
时间:2014
作者:Mikolov (word2vec的作者)
发表于:icml
原文件:http://pan.baidu.com/s/1bnm7COB
主要内容:
继写出word2vec之后,接下来的问题是:能否在更大的语言单位上,如:短语、句子、段落、篇章,上面继续word2vec的工作,将这些语言单位用实属向量的方式表示出来。
思路:
作者思路很直接,即在word2vec模型的基础上,将神经网络的偏置b用一个向量来代替,参与训练,在获得每个词语的实属向量的同时,也获得这个代替偏置的向量。作者用这个向量来作为当前上下文content的表示向量。整个训练方式和word2vec基本一致。
实验:
作者一共写了两个实验,我看了第一个。是判断语句的情感倾向性的。关键在于作者如何使用他训练出来的phrasevec。使用方式如下:对目标语句进行分词,截取sub-phrase,每个sub-phrase对应一个作者训练出来的phrasevec。用这些phrasevec,结合LR模型,进行分类,从而预测目标语句的情感倾向。从结果上看,无论是二值分类(正面情感 vs 负面情感)还是多值分类,相比传统benchmark,作者的方法都有提升。
完。
转载请注明出处:http://blog.csdn.net/xceman1997/article/details/46290365
时间: 2024-10-10 02:49:21