Dependency-Based Word Embeddings(基于依存的词向量)

最近要开始读论文了,其实自己读论文的能力挺不怎么样的,并且读过就忘记,这实在是让人很不爽的事情。自己分析记不住的原因可以有以下几点:

  • 读论文时理解就不深刻,有时候就是一知半解的
  • 读完之后没有总结,即没有自己概括这篇论文的过程,所以文中一知半解的过程还是忽略了,并且以后再回顾的时候,这篇论文对自己来说就像新的论文一样,还是一样懵。

所以,我决定对读的每一篇论文都做一个总结,并发表在博客上。如果有人能强忍着“这人写了些什么玩意”的想法看完了我的文章,还请不吝赐教,指出我的错误。

作为开始总结的第一篇论文,我选取的论文并不新,是一篇发表在2014年ACL(Meeting of the Association for Computational Linguistics)的短文。作者是Omer Levy和 Yoav Goldberg,Bar-llan University(以色列的巴伊兰大学)。

下面开始步入正文。

文章在Abstract部分就交代了,他们的工作就是generalize(泛化)了Mikolov提出的skip-gram model + negative sampling。skip-gram模型利用的context(上下文)就是其前面几个词和后面几个词,而本文利用的context却可以是任意的。虽然文章提的是任意的上下文,但是其实文章主要说的还是基于依存的context。

introduction正常我应该只看最后一段的,但是今天兴致不错,于是都看了。但是还是有挺多工作没看懂。文章最开始以例子“pizza”和“hamburger”说明了词表示(word representation)的重要性,引出了对于获得词表示的一种常用的模式-distributional hypothesis(分布式假设),这个假设是words in similar contexts have similar meanings(有相似的上下文的词拥有相似的意思)。之后大家就一句这个假设提出了挺多方法,于是也出现了我们熟悉的用神经网络语言模型训练的方法,并且这种方法还展现了很好的性能。其中当然不能不提的就是Mikolov在2013年提出的word2vec,并且作者的改进主要建立在其中的skip-gram模型中。刚刚也提到了,在本文之前的模型的context一般是线性的,即目标词的前几个词和后几个词,而本文是syntactic contexts(句法上下文)。文章提到不同的上下文能产生非常显著不同的词向量,出现不同的词相似。文章提到,在skip-gram中上下文的bag-of-words nature(应该是自然的没有改变的周围的词的意思)产生的是broad topical similarities(局部相似性),而基于依存的上下文产生了更加功能性的相似性(根据后面的实验描述,这个意思应该是说类似表达的词的词义更加相近,比如各种国家的表达应该是相近的)。

之后就进入到描述模型的阶段了。首先讲了skip-gram和negative-sampling(负采样),这和word2vec一样。里面解释了负采样为什么是那种形式,貌似我在word2vec的论文中没看到过这段。。负采样的意思大概就是使能一起出现的词对的概率尽可能大,随机采的负例和目标词一起出现的概率尽可能小。

终于到了文章的关键部分了。在解析完(使用的解析工具由Goldberg and Nivre, 2012和2013提出的解析技术)句子之后,能得到的内容如下:对于每一个目标词\(w\)与其modifiers \(m_1\), \(m_2\),...,\(m_k\),和head \(h\),我们考虑的上下文为\((m_1, lbl_1)\), ..., \((m_k, lbl_k)\), \((h, lbl_h^{-1})\)。参见具体的例子即可明白作者的意思,如图所示:

其中要注意的一点是,在介词那里,介词被省略,弧线直接连到了介词所连的词,并且关系变为了{prep,介词本身}。

最后就是实验部分了,实验主要设置了BoW5,BoW2和DEPS(即本文提出的模型)三个的比较。比较主要分为定性和定量。

  • 在定性比较中,主要是人工的观察5个最相似的词(通过cosine similarity相似)。得出的结论是,BoW反映的是domain(领域方面),而DEPS反映的是目标词的semantic type(语义类型)。
  • 在定量方面,文章在WordSim353 dataset和Chiarello et al. dataset上做了实验,结果都比另外两个对比实验好。但是在另外的任务,比如目标是在相似的集合上排序相关的术语时,结果反转了(这个实验在论文中没有被展示)。

最后的结论什么的没有仔细看。这篇文章发布了源码,在作者的个人主页上,GitHub上也可以搜到,名字是word2vecf。

最后的最后,如果大家有兴趣当然自己看看论文和源码研究一下了,也欢迎和我交流讨论。

时间: 2024-10-29 16:01:08

Dependency-Based Word Embeddings(基于依存的词向量)的相关文章

词向量

自然语言处理-词向量 引言 在计算机视觉中,作为输入的图片可以直接数值化.在语言识别中,作为输入的语音也可以直接数值化.而在自然语言处理中,我们无法将文字直接数值化,为了能够让计算机处理文字,我们需要将文字映射到一个数值空间.由于词是组成语义的基本单位,所以对词的表述就显得尤为重要,我们把词的数值(表征)表示为Word Representation,一般来说,词向量经常指Word Embedding,也称Distributed Word Representation. 摘要 从Word Repr

【paddle学习】词向量

本章我们介绍词的向量表征,也称为word embedding.词向量是自然语言处理中常见的一个操作,是搜索引擎.广告系统.推荐系统等互联网服务背后常见的基础技术. 在这些互联网服务里,我们经常要比较两个词或者两段文本之间的相关性.为了做这样的比较,我们往往先要把词表示成计算机适合处理的方式.最自然的方式恐怕莫过于向量空间模型(vector space model). 在这种方式里,每个词被表示成一个实数向量(one-hot vector),其长度为字典大小,每个维度对应一个字典里的每个词,除了这

词向量与ELMo模型 词向量漫谈

目录: 基础部分回顾(词向量.语言模型) NLP的核心:学习不同语境下的语义表示 基于LSTM的词向量学习 深度学习中的层次表示以及Deep BI-LSTM ELMo模型 总结 1. 基础部分回顾(词向量.语言模型) 1.1 独热编码-词的表示 1.2 词向量-词的表示 我们为什么需要词向量?(One-hot向量的缺点?) 基于One-hot能否表示单词之间语义相似度? 1.2.1 基于One-hot能否表示单词之间语义相似度? 答:不可以.因为,我们不管是通过欧式距离还是通过余弦相似度,计算用

翻译 | Improving Distributional Similarity with Lessons Learned from Word Embeddings

翻译 | Improving Distributional Similarity with Lessons Learned from Word Embeddings 叶娜老师说:"读懂论文的最好方法是翻译它".我认为这是很好的科研训练,更加适合一个陌生领域的探索.因为论文读不懂,我总结无非是因为这个领域不熟悉.如果是自己熟悉的领域,那么读起来肯定会比较顺畅. 原文 摘要 [1] Recent trends suggest that neural-network-inspired wor

Word Embeddings: Encoding Lexical Semantics(译文)

词向量:编码词汇级别的信息 url:http://pytorch.org/tutorials/beginner/nlp/word_embeddings_tutorial.html?highlight=lookup 词嵌入 词嵌入是稠密向量,每个都代表了一个单词表里面的一个单词.NLP中每个Feature都是单词,但是怎么在电脑中表示单词呢?? ascii知识告诉我们每个单词是啥,没告诉我们是什么意思.还有就是,怎么融合这些表示呢? 第一步:通过one-hot编码.w=[0,0,1,0,0].其中

基线系统需要受到更多关注:基于词向量的简单模型

最近阅读了<Baseline Needs More Love: On Simple Word-Embedding-Based Models and Associated Pooling Mechanisms>这篇论文[1],该工作来自杜克大学,发表在ACL 2018上.论文详细比较了直接在词向量上进行池化的简单模型和主流神经网络模型(例如CNN和RNN)在NLP多个任务上的效果.实验结果表明,在很多任务上简单的词向量模型和神经网络模型(CNN和LSTM)的效果相当,有些任务甚至简单模型更好.下

PyTorch基础——词向量(Word Vector)技术

一.介绍 内容 将接触现代 NLP 技术的基础:词向量技术. 第一个是构建一个简单的 N-Gram 语言模型,它可以根据 N 个历史词汇预测下一个单词,从而得到每一个单词的向量表示. 第二个将接触到现代词向量技术常用的模型 Word2Vec.在实验中将以小说<三体>为例,展示了小语料在 Word2Vec 模型中能够取得的效果. 在最后一个将加载已经训练好的一个大规模词向量,并利用这些词向量来做一些简单的运算和测试,以探索词向量中包含的语义信息. 知识点 N-Gram(NPLM) 语言模型 Wo

C#将html导出到word(基于wps)

由于客户需要,我们需要实现将网页导出到word中的功能,在此过程中,尝试使用过openoffice.itext.wordapi等各种方法,都不尽如人意.openoffice导出的问题图片信息在word2007下看不到,itext导出嵌套表格格式会乱套.wordapi导出倒是正常,但是无法将图片信息一并导入到文件中.最后没有办法突发奇想用wps试试,没想到成功了. 在尝试之前因为不知道wps是否有相关的api或者com组件,事先致电了金山客服询问了相关事宜,经确认wps是提供com组件调用的,现在

Word Embeddings: Encoding Lexical Semantics

Word Embeddings: Encoding Lexical Semantics Getting Dense Word Embeddings Word Embeddings in Pytorch An Example: N-Gram Language Modeling Exercise: Computing Word Embeddings: Continuous Bag-of-Words Word Embeddings in Pytorch import torch import torc