Efficient Vector Representation for Documents through Corruption-by Minmin Chen阅读

关键词: 词向量、文档向量、文档表示

地址:https://openreview.net/forum?id=B1Igu2ogg&noteId=B1Igu2ogg

首先,论文解决的是Word2Vec,Paragraph Vectors一样的,文档表示形式的问题。如何来表示一个文档,从而进行相关的文档分类,语义理解,感情分析。。。

然后,和其他方法不同的是,这里直接用文档中所有的词向量的平均来代表文档的向量表达,还有用到了随机的替换文档中的词语,这个不理解意义在哪?没有读懂。

最后给出了好多实验,效果比已有的算法比如Word2Veec都要好。

时间: 2024-07-29 23:31:14

Efficient Vector Representation for Documents through Corruption-by Minmin Chen阅读的相关文章

计算Fisher vector和VLAD

This short tutorial shows how to compute Fisher vector and VLAD encodings with VLFeat MATLAB interface. These encoding serve a similar purposes: summarizing in a vectorial statistic a number of local feature descriptors (e.g. SIFT). Similarly to bag

Fisher vector fundamentals

文章<Fisher Kernels on Visual Vocabularies for Image Categorization>中提到: Pattern classication techniques can be divided into the classes ofgenerative approaches anddiscriminative approaches. While the first class focuses onthe modeling of class-condit

Lucene in action 笔记 term vector——针对特定field建立的词频向量空间,用cos计算针对该field的文档相似度

摘自:http://blog.csdn.net/fxjtoday/article/details/5142661 Leveraging term vectors所谓term vector, 就是对于documents的某一field,如title,body这种文本类型的, 建立词频的多维向量空间.每一个词就是一维, 这维的值就是这个词在这个field中的频率. 如果你要使用term vectors, 就要在indexing的时候对该field打开term vectors的选项: Field op

string 和 vector 初探

标准库类型 string string 表示可变长的字符序列.是C++标准库类型的一部分,拥有很多优秀的性能. 定义 string 对象时如未人为初始化编译器会默认初始化为空字符串. string 对象的初始化有非常多种.大体分为两类:拷贝初始化和直接初始化. 全部用等号(=)的初始化都为拷贝初始化.相反不是等号则为直接初始化. 当初始值仅仅有一个时,拷贝和直接初始化都可,但须要用到多个值的时候,一般来说仅仅能使用直接初始化. 建议尽量使用直接初始化. string s1;//默认初始化为空串

CVPR 2017 Paper list

CVPR2017 paper list Machine Learning 1 Spotlight 1-1A Exclusivity-Consistency Regularized Multi-View Subspace Clustering Xiaojie Guo, Xiaobo Wang, Zhen Lei, Changqing Zhang, Stan Z. Li Borrowing Treasures From the Wealthy: Deep Transfer Learning Thro

图像处理与计算机视觉基础,经典以及最近发展

*************************************************************************************************************** 在这里,我特别声明:本文章的源作者是   杨晓冬  (个人邮箱:[email protected]).原文的链接是 http://www.iask.sina.com.cn/u/2252291285/ish.版权归 杨晓冬 朋友所有. 我非常感谢原作者辛勤地编写本文章,并愿意共

文本深度表示模型Word2Vec

文本深度表示模型Word2Vec 简介 Word2vec 是 Google 在 2013 年年中开源的一款将词表征为实数值向量的高效工具, 其利用深度学习的思想,可以通过训练,把对文本内容的处理简化为 K 维向量空间中的向量运算,而向量空间上的相似度可以用来表示文本语义上的相似度.Word2vec输出的词向量可以被用来做很多 NLP 相关的工作,比如聚类.找同义词.词性分析等等.如果换个思路, 把词当做特征,那么Word2vec就可以把特征映射到 K 维向量空间,可以为文本数据寻求更加深层次的特

Learning LexRank——Graph-based Centrality as Salience in Text Summarization(一)

(1)What is Sentence Centrality and Centroid-based Summarization ? Extractive summarization works by choosing a subset of the sentences in the original documents. This process can be viewed as identifying the most central sentences in a (multi-documen

OpenCV原理解读之HAAR+Adaboost

由于在做人脸检测的项目,用到了OpenCV的训练结果中的老分类器,因此将旧分类器的检测方法进行了总结,加上了一些自己的理解,并转载了一些较好的文章记录下来. 文章http://www.61ic.com/Article/DaVinci/TMS320DM646x/201310/50733.html解决了以下函数移植到DSP上的一些问题 下面为HAAR特征检测的具体流程:http://blog.csdn.net/nongfu_spring/article/details/38977555 一.在计算每