如何使用向量代表文档doc或者句子sentence

1.“句向量”简介
word2vec提供了高质量的词向量，并在一些任务中表现良好。
关于word2vec的原理可以参考这几篇论文：

https://arxiv.org/pdf/1310.4546.pdf
https://arxiv.org/pdf/1301.3781.pdf
关于如何使用第三方库gensim训练word2vec可以参考这篇博客：

http://blog.csdn.net/john_xyz/article/details/54706807
尽管word2vec提供了高质量的词汇向量，仍然没有有效的方法将它们结合成一个高质量的文档向量。对于一个句子、文档或者说一个段落，怎么把这些数据投影到向量空间中，并具有丰富的语义表达呢？过去人们常常使用以下几种方法：

bag of words
LDA
average word vectors
tfidf-weighting word vectors
就bag of words而言，有如下缺点：1.没有考虑到单词的顺序，2.忽略了单词的语义信息。因此这种方法对于短文本效果很差，对于长文本效果一般，通常在科研中用来做baseline。

average word vectors就是简单的对句子中的所有词向量取平均。是一种简单有效的方法，但缺点也是没有考虑到单词的顺序

tfidf-weighting word vectors是指对句子中的所有词向量根据tfidf权重加权求和，是常用的一种计算sentence embedding的方法，在某些问题上表现很好，相比于简单的对所有词向量求平均，考虑到了tfidf权重，因此句子中更重要的词占得比重就更大。但缺点也是没有考虑到单词的顺序

LDA模型当然就是计算出一片文档或者句子的主题分布。也常常用于文本分类任务，后面会专门写一篇文章介绍LDA模型和doc2vec的本质不同
---------------------
作者：Johnson0722
来源：CSDN
原文：https://blog.csdn.net/John_xyz/article/details/79208564
版权声明：本文为博主原创文章，转载请附上博文链接！

原文地址：https://www.cnblogs.com/yjybupt/p/9881048.html

时间： 2024-11-11 03:53:57

如何使用向量代表文档doc或者句子sentence

如何使用向量代表文档doc或者句子sentence的相关文章

Android开发帮助文档Doc打开速度慢解决_Python篇

python实用小技巧自问自答系列(一)：查看类中函数文档doc的方法

OFFICE文档(DOC,XLS,PPT)打开报错的解决办法!

如何计算两个文档的相似度（二）

Word文档分割总结

XML文档追加内容，读取内容

DL4NLP —— seq2seq+attention机制的应用：文档自动摘要（Automatic Text Summarization）

文档对象模型操作xml文档

单文档程序结构