中文词向量论文综述(三)

导读

最近在做中文词向量相关工作,其中看了一些中文词向量的相关论文,在这篇文章,将把近几年的中文词向量进展及其模型结构加以简述,大概要写3-4篇综述,每篇包含2-3篇论文。续 --- 中文词向量论文综述(二)

一、Learning Chinese Word Representations From Glyphs Of Characters

论文来源

这是一篇2017年发表在EMNLP(Empirical Methods in Natural Language Processing)会议上的论文,作者来自于台湾大学 --- Tzu-Ray Su 和 Hung-Yi Lee。

Abstract

这篇论文的出发点也很新颖,中文汉字可以认为是由图形组件组成的,具有丰富的语义信息,基于此,提出了一个新的学习中文词向量的方法,通过图形字符(character glyphs)来增强词的表示,character glyphs通过图像卷积从位图(bitmaps)中编码得来,character glyphs特征加强了word的表示,也提高了character embedding。這篇论文虽然是在繁体中文进行的改进,不过idea同样也可以应用在简体中文中。在 Word SimilarityWord Analogy 上验证了其实验效果。

Model

這篇论文的模型参考了CWE模型MGE模型,模型部分也是分为了几个阶段,第一个阶段是通过convAE从位图中抽取glyph特征,第二阶段是在已有的中文词向量模型中进行改进提高,像CWE,MGW模型,第三阶段是直接使用glyph特征学习中文词向量表示。

Character Bitmap Feature Extraction

前期把字符全部转换成图像,通过convAE对图像抽取特征,convAE的模型结构图如下图所示,通过convAE最后的输出得到的512维的特征,character的glyph特征表示为g_k。

Glyph-Enhanced Word Embedding (GWE)

在這部分对CWE模型做了两个调整分别构建了CWE+ctxG模型CWE+tarG模型

  1. Enhanced by Context Word Glyphs --- CWE+ctxG模型

    在CWE的基础之上增加了上下文词的glyph特征, 模型图如下所示,

    其中,W(ctxG)_i的表示如下,其实计算就是word embedding + avgall(character embedding + glyph embedding)

  2. Enhanced by Target Word Glyphs --- CWE+tarG模型

    CWE+tarG模型和上文差不多,不过这个加入的是目标词的glyph特征,具体的模型图如下。

Directly Learn From Character Glyph Features

在这部分仅仅通过glyph特征与RNN循环神经网络构建了两个模型,分别是 RNN-SkipgramRNN-Glove

  1. RNN-Skipgram

    RNN-Skipgram是把RNN和skipgram结合,通过RNN对glyph特征进行编码,产生隐层表示,然后把隐层表示作为skipgram的输入,进行预测,具体的模型结构图如下图所示。

  2. RNN-Glove

    通过两个RNN循环神经网络,输入分别是中心词和上下文词的glyph特征,与RNN-Skipgram有微小的差别,输入中心词的网络后连接的是一个共享网络,输入上下文词的网络后面是全连接层,然后两个的输出的内积就是log(X_ij)的预测。

Experiment Result

Word SimilarityWord Analogy 上验证了其实验效果,由于以前的评测文件都是基于简体中文的,他们对其手工翻译成繁体中文的数据集进行评测。

Word Similarity采用的评测文件是wordsim-240wordsim-296,由于中文简体和繁体在翻译过程中产生的歧义性,他们手工构建了SimLex-999评测文件,并把SimLex-999作为第三个评测文件,具体的实验结果如下图。

Word Analogy采用的是Chen 2015年构造的评测文件,但是增加了一个Job&Place,具体的实验结果如下图。

二、Joint Embeddings of Chinese Words, Characters, and Fine-grained Subcharacter Components

论文来源

这是一篇2017年发表在EMNLP(Empirical Methods in Natural Language Processing)会议上的论文,作者来自于香港科技大学 --- Jinxing Yu。

Abstract

与西方语言不同,中文汉字包含了丰富的语义信息,这篇论文提出了一个联合学习word,character和更加细粒度的subcharacter的方法来学习word embedding。在Word SimilarityWord Analogy任务上验证其优越性。

Model

提出了一个联合( Chinese words, characters, and subcharacter components)学习word embedding的模型,称之为JWE模型,JWE模型也是基于CBOW来进行的完善,模型结构如下图。根据下图,只是在输入端多了一些改变,w_i代表目标词;w_i+1,w_i-1代表上下文词;c_i-1,c_i+1代表上下文词的character;s_i+1,s_i-1代表上下文词的subcharacter(radical),s_i代表目标词的subcharacter(radical)。

损失函数有所不同,为三者的相加,具体公式如下,其中h_i1,h_i2,h_i3分别代表context word,context character,context subcharacter,h_i1,h_i2,h_i3分别取三者的平均值作为表示,例如h_i1如下图2所示,v_wi代表的是context word。

Experiment Result

Word SimilarityWord Analogy 上验证了其优越性。

论文在模型上尝试了不同的组合来进行实验,具体如下:

  1. +c :代表的是component特征
  2. +r :代表的是radical特征
  3. +p :代表的是subcharacter components 特征
  4. +p1 :代表的是使用上下文词的subcharacter components 特征
  5. +p2 :代表的是使用目标词的subcharacter components 特征
  6. +p3 :代表的是使用上下文词和目标词的subcharacter components 的特征
  7. -n :代表的是仅仅使用character
  8. 具体来说上面提到的component,radical(偏旁),subcharacter,比如这个汉字,它的radical是 灬component是日、刀、口subcharacter是subcharacter components,应该是所有的components(包含radical)。

Word Similarity采用的评测文件是wordsim-240wordsim-295wordsim-296移除了评测文件中没有出现在训练语料中的一个词,变为评测文件wordsim-295,具体的实验结果如下图。

Word Analogy采用的是Chen 2015年构造的评测文件,具体的实验结果如下图。

References

[1] Learning Chinese Word Representations From Glyphs Of Characters

[2] Joint Embeddings of Chinese Words, Characters, and Fine-grained Subcharacter Components

个人信息

[1] Blog : https://bamtercelboo.github.io/

[2] Github : https://github.com/bamtercelboo

[3] 知乎 :https://www.zhihu.com/people/bamtercelboo/activities

[4] 博客园: http://www.cnblogs.com/bamtercelboo/

转载请注明出处

https://www.cnblogs.com/bamtercelboo/p/9485116.html

原文地址:https://www.cnblogs.com/bamtercelboo/p/9485116.html

时间: 2024-10-14 14:59:03

中文词向量论文综述(三)的相关文章

word2vec 构建中文词向量

词向量作为文本的基本结构--词的模型,以其优越的性能,受到自然语言处理领域研究人员的青睐.良好的词向量可以达到语义相近的词在词向量空间里聚集在一起,这对后续的文本分类,文本聚类等等操作提供了便利,本文将详细介绍如何使用word2vec构建中文词向量. 一.中文语料库 本文采用的是搜狗实验室的搜狗新闻语料库,数据链接 http://www.sogou.com/labs/resource/cs.php 下载下来的文件名为: news_sohusite_xml.full.tar.gz 二.数据预处理

开源共享一个训练好的中文词向量(语料是维基百科的内容,大概1G多一点)

使用gensim的word2vec训练了一个词向量. 语料是1G多的维基百科,感觉词向量的质量还不错,共享出来,希望对大家有用. 下载地址是http://pan.baidu.com/s/1pLGlJ7d 密码:hw47 包含训练代码.使用词向量代码.词向量文件(3个文件) 因为机器内存足够,也没有分批训练.所以代码非常简单.也在共享文件里面,就不贴在这里了.

文本分布式表示(二):用tensorflow和word2vec训练词向量

博客园的markdown用起来太心塞了,现在重新用其他编辑器把这篇博客整理了一下. 目前用word2vec算法训练词向量的工具主要有两种:gensim 和 tensorflow.gensim中已经封装好了word2vec这个包,用起来很方便,只要把文本处理成规范的输入格式,寥寥几行代码就能训练词向量.这样比较适合在做项目时提高效率,但是对理解算法的原理帮助不大.相比之下,用tensorflow来训练word2vec比较麻烦,生成batch.定义神经网络的各种参数,都要自己做,但是对于理解算法原理

文本情感分析(二):基于word2vec和glove词向量的文本表示

上一篇博客用词袋模型,包括词频矩阵.Tf-Idf矩阵.LSA和n-gram构造文本特征,做了Kaggle上的电影评论情感分类题. 这篇博客还是关于文本特征工程的,用词嵌入的方法来构造文本特征,也就是用word2vec词向量和glove词向量进行文本表示,训练随机森林分类器. 一.训练word2vec词向量 Kaggle情感分析题给出了三个数据集,一个是带标签的训练集,共25000条评论,一个是测试集,无标签的,用来做预测并提交结果,这两个数据集是上一篇文章里我们用过的. 此外还有一个无标签的数据

PyTorch基础——词向量(Word Vector)技术

一.介绍 内容 将接触现代 NLP 技术的基础:词向量技术. 第一个是构建一个简单的 N-Gram 语言模型,它可以根据 N 个历史词汇预测下一个单词,从而得到每一个单词的向量表示. 第二个将接触到现代词向量技术常用的模型 Word2Vec.在实验中将以小说<三体>为例,展示了小语料在 Word2Vec 模型中能够取得的效果. 在最后一个将加载已经训练好的一个大规模词向量,并利用这些词向量来做一些简单的运算和测试,以探索词向量中包含的语义信息. 知识点 N-Gram(NPLM) 语言模型 Wo

word2vec词向量训练及中文文本相似度计算

本文是讲述如何使用word2vec的基础教程,文章比较基础,希望对你有所帮助! 官网C语言下载地址:http://word2vec.googlecode.com/svn/trunk/ 官网Python下载地址:http://radimrehurek.com/gensim/models/word2vec.html 1.简单介绍 参考:<Word2vec的核心架构及其应用 · 熊富林,邓怡豪,唐晓晟 · 北邮2015年> <Word2vec的工作原理及应用探究 · 周练 · 西安电子科技大学

【python gensim使用】word2vec词向量处理中文语料

word2vec介绍 word2vec官网:https://code.google.com/p/word2vec/ word2vec是google的一个开源工具,能够根据输入的词的集合计算出词与词之间的距离. 它将term转换成向量形式,可以把对文本内容的处理简化为向量空间中的向量运算,计算出向量空间上的相似度,来表示文本语义上的相似度. word2vec计算的是余弦值,距离范围为0-1之间,值越大代表两个词关联度越高. 词向量:用Distributed Representation表示词,通常

基线系统需要受到更多关注:基于词向量的简单模型

最近阅读了<Baseline Needs More Love: On Simple Word-Embedding-Based Models and Associated Pooling Mechanisms>这篇论文[1],该工作来自杜克大学,发表在ACL 2018上.论文详细比较了直接在词向量上进行池化的简单模型和主流神经网络模型(例如CNN和RNN)在NLP多个任务上的效果.实验结果表明,在很多任务上简单的词向量模型和神经网络模型(CNN和LSTM)的效果相当,有些任务甚至简单模型更好.下

【LaTeX排版】LaTeX论文排版&lt;三&gt;

A picture is worth a thousand words(一图胜千言).图在论文中的重要性不言而喻,本文主要讲解图的制作与插入. 1.图像的插入 图像可以分为两大类:位图和向量图. 位图:也就是点阵图,使用像素的小方块组成网格来表示图像.每个像素都有自己特定的位置和颜色值.一幅图像的像素数量的大小不变,当放大或缩小时,改变的只是像素尺寸的大小.因此放大或缩小时会出现锯齿现象,造成失真.位图还分为:无损压缩和有损压缩.其中,TIFF.PNG.GIF是无损压缩,JPG是有损压缩. 向量