求同存异,共创双赢 - 基于对抗网络的利用不同分词标准语料的中文分词方法 | 论文访谈间 #06

https://mp.weixin.qq.com/s/P-a-n1PsBL5hLZWVxyuLQw

「论文访谈间」是由 PaperWeekly 和中国中文信息学会青工委联合发起的论文报道栏目,旨在让国内优质论文得到更多关注和认可。 这是第 6 期「论文访谈间」

论文作者 | 陈新驰、施展、邱锡鹏、黄萱菁(复旦大学)

特约记者 | 郑华滨(中山大学)

在中文信息处理中,分词(word segmentation)是一项基本技术,因为中文的词汇是紧挨着的,不像英文有一个天然的空格符可以分隔开不同的单词。虽然把一串汉字划分成一个个词对于汉语使用者来说是很简单的事情,但对机器来说却很有挑战性,所以一直以来分词都是中文信息处理领域的重要的研究问题。

如今 90% 乃至 95% 以上的中文分词准确率已不是什么难题,这得益于模型和算法上的不断进步。在传统 CRF 中,特征需要人工设定,因此大量繁杂的特征工程将不可避免。近几年深度学习的发展给很多研究问题带来了全新的解决方案。在中文分词上,基于神经网络的方法,往往使用“字向量 + 双向 LSTM + CRF”模型,利用神经网络来学习特征,将传统 CRF 中的人工特征工程量将到最低,如下图所示,其中:

  • 字向量层(对应 Embedding Layer)能够把离散的汉字符号转化为连续的向量表示
  • 双向 LSTM 网络(对应 Feature Layer)能够在考虑时序依赖关系的同时抽取有用的文本特征
  • 最后的 CRF 模型(对应 Inference Layer)则建模了两个相邻输出的概率制约关系 强大的样本表示、特征抽取和概率建模能力,使它成为如今最主流的中文分词模型。

▲ 图 1:分词模型

除了模型和算法,中文分词准确率的提高更得益于丰富的公开训练语料集。然而,因为中文分词这个问题本身并不存在一个完全统一的标准,众多语料集之间都或多或少存在不一致的地方。由于语言学家定义了分词的多种不同标准,因此对于同一串汉字,不同的人可能会给出不同的切分结果。比如“姚明进入总决赛”这句话,在 CTB 和 PKU 两个语料集中就是不同的切分标准,前者认为“姚明”和“总决赛”是一个整体,后者却认为姓和名应该分开、“总”和“决赛”应该分开:

▲ 图 2:语料不一致

中文分语料丰富,每一份中文分词语料都是经过昂贵而耗时的人工标注得到的。又因为每份语料间的标准多少有些不一致,因而以往在训练一个分词模型的时候只会用一份语料,而置其他语料于不顾,这无疑是浪费,弃之可惜。所以现在一些研究者就在思考怎么同时利用多个语料集。如果能够想办法利用多个分词标准语料集的信息,就能让模型在更大规模的数据上训练,从而提升各个分词标准下分词的准确率。最近,来自复旦大学的陈新驰同学、施展同学、邱锡鹏老师和黄萱菁老师就提出了一个新框架,可以利用多标准的中文分词语料进行训练。实验在 8 个语料集上进行训练,并在 8 份语料上都提升了准确率。他们的论文 Adversarial Multi-Criteria Learning for Chinese Word Segmentation 发表在今年的 ACL2017 上。值得一提的是,这四位作者中的陈新驰同学、邱锡鹏老师、黄萱菁老师同时也是上述“字向量+双向 LSTM+CRF”中文分词模型最初原型的提出者。

接下来我们就来一步步走近这个框架。首先,在多份语料上训练可以看成一个多任务学习(Multi-task Learning)问题,在 8 份语料上的模型训练就是 8 个任务。这些任务之间显然存在着很大的共性,所以可以设想用单独一个“字向量 + 双向 LSTM + CRF”模型来训练,但是如前所述,这些任务之间存在不一致,所以又必须考虑用一部分模块来建模它们之间的差异部分。论文中具体采取的方案是再拿出 8 个特定于具体任务的私有 LSTM 模块,跟原来共享的 LSTM 网络模块一同构成图 1 中的特征抽取层,变成如图 3 所示的结构。在图 3 中,两个灰色的私有 LSTM 模块分别负责捕捉 TaskA 和 TaskB 的任务私有特征,中间黄色的共享 LSTM 模块负责捕捉任务共享特征,然后再把私有特征与共享特征拼接到一起,输入每个任务私有的 CRF 模块。整个框架总共有:

  • 1 个共享的字向量模块
  • 1 个共享的 LSTM 模块
  • 8 个私有的 LSTM 模块
  • 8 个私有的 CRF 模块

▲ 图 3:多任务框架

在尝试用以上多任务框架进行训练后,作者发现有 7 个语料上的分词准确率确实得到了提升,但是 MSRA 语料的准确率下降。为什么呢?作者分析认为这可能是由于共享 LSTM 模块所捕捉的特征并不“纯净”,里面可能混入了某个任务的私有特征,这些特征对 MSRA 语料没有用,甚至可能反倒有害,才导致其准确率下降。

根据上述假设,我们似乎应该想办法把私有特征从共享的 LSTM 模块中“剥离”出去,保证该模块仅仅抽取对所有语料都有用的特征,而论文作者就非常巧妙地利用了对抗网络来达到这个目的。

论文在上述多任务框架的基础应用对抗网络,提出了如下图所示的对抗多任务框架,它与之前框架的区别在于多了一个判别器(Discriminator)网络模块,负责检查共享特征中是否不小心混入了特定于某个任务的特征。

▲ 图 4:对抗多任务框架

具体来说,每当一个样本经过字向量层、共享 LSTM 层之后,我们会得到一个特征向量序列,该序列的长度与输入样本的字符长度相等。为了检查这些特征向量是否“纯净”,我们对它们求平均,得到一个固定长度的特征向量,再输入判别器网络模块,要求判别器预测该特征向量来源于 8 个语料中的哪一个。这是我们给判别器设定的目标。

假如判别器能够准确预测每一个共享特征向量的来源语料,则说明这些共享特征中混入了太多私有信息,这是我们不希望发生的事情。所以我们反过来给共享 LSTM 模块设定一个目标,让它跟判别器对抗,想办法让判别器预测不准。假如共享 LSTM 模块成功让判别器分不清特征向量来自哪个语料,意味着我们已经把私有特征剥离出去了,从而保证了共享特征向量的纯净性。

引入了上述对抗训练目标之后,新的对抗多任务框架在 8 个语料上都获得了准确率的提升。

回过头来看,这样神奇的结果似乎又很符合直觉。作者借鉴了多任务学习的思想,融合多个语料的数据来提升共享字向量模块、共享 LSTM 模块的泛化性能,又让多个私有 LSTM 模块、私有 CRF 模块分别负责各个语料之间标准不一致之处,还巧妙地利用了对抗网络把私有信息从共享模块中剥离到各个私有模块中去,既能充分享受到数据量增大带来的好处,又避免了不同语料之间相互掣肘,做到了“求同存异,共创双赢”。笔者相信这篇论文提出的对抗多任务框架不仅对中文分词有好处,也能够用在很多其他问题上,具有相当的普适应用价值。

欢迎点击「阅读原文」查看论文:

Adversarial Multi-Criteria Learning for Chinese Word Segmentation

关于中国中文信息学会青工委

 

中国中文信息学会青年工作委员会是中国中文信息学会的下属学术组织,专门面向全国中文信息处理领域的青年学者和学生开展工作。

关于PaperWeekly

PaperWeekly是一个推荐、解读、讨论、报道人工智能前沿论文成果的学术平台。如果你研究或从事AI领域,欢迎在公众号后台点击「交流群」,小助手将把你带入PaperWeekly的交流群里。

时间: 2024-10-04 19:07:34

求同存异,共创双赢 - 基于对抗网络的利用不同分词标准语料的中文分词方法 | 论文访谈间 #06的相关文章

(转) 简述生成式对抗网络

简述生成式对抗网络 [转载请注明出处]chenrudan.github.io 本文主要阐述了对生成式对抗网络的理解,首先谈到了什么是对抗样本,以及它与对抗网络的关系,然后解释了对抗网络的每个组成部分,再结合算法流程和代码实现来解释具体是如何实现并执行这个算法的,最后给出一个基于对抗网络改写的去噪网络运行的结果,效果虽然挺差的,但是有些地方还是挺有意思的. 1. 对抗样本 2. 生成式对抗网络GAN 3. 代码解释 4. 运行实例 5. 小结 6. 引用 1. 对抗样本(adversarial e

华为轮值董事长徐直军:加速智能,共创未来

"智能网联.于斯为盛",2019互联网岳麓峰会于4月1日在湖南长沙开幕.华为副董事长.轮值董事长徐直军发表了题为<加速智能,共创未来>的演讲,他呼吁中国政府和企业抓住人工智能带来"变道"的战略机遇,构建面向未来的竞争力.华为轮值董事长徐直军:加速智能,共创未来以下是徐直军发言全文各位领导.各位来宾: 大家好. 今天,我相信没有人再怀疑未来世界将走向智能时代,未来是智能社会,这已经成为全世界的基本共识.那么,人工智能也好.智能社会也好,对我们产业界意味着什

知物由学 | AI网络安全实战:生成对抗网络

"知物由学"是网易云易盾打造的一个品牌栏目,词语出自汉·王充<论衡·实知>.人,能力有高下之分,学习才知道事物的道理,而后才有智慧,不去求问就不会知道."知物由学"希望通过一篇篇技术干货.趋势解读.人物思考和沉淀给你带来收获的同时,也希望打开你的眼界,成就不一样的你. 以下是正文: 作者:Brad Harris,安全研究员,Brad曾在公共和私营部门的网络和计算机安全领域工作过.他已经完成了从渗透测试到逆向工程到应用研究的所有工作,目前他是IBMX-Fo

楚才国科携手格凡软件CEO尹俊文:让数据更加安全,与安全共创价值

楚才国科致力于为中国智能制造企业提供人才支撑,并与湖南本土著名影视工作室"非繁影像"达成全面战略合作伙伴关系,共同打造一档零距离接触人工智能企业和领军人物的访谈栏目<走进未来之大咖驾到> "非繁影像"是著名作家.湖南卫视导演.编剧.策划人龙静婉女士为主理人的影视工作站,参与制作了"爸爸去哪儿"."花儿与少年"."变形计"."快乐女声"等多档热门节目.<大咖驾到>这

共创力咨询《软件产品需求分析与管理》公开课即将在北京开课!

课时:13小时(2天)    软件产品需求分析与管理   讲师: 杨学明 时 间:2019.01.04~05 举办单位:深圳市共创力企业管理咨询有限公司 举办地点:北京 [课程背景] 营销大师科特勒指出:“以市场为导向.以客户为中心”就是对市场需求的管理!市场需求管理是公司战略.市场计划.新产品开发的依据,决定了公司竞争力的延续,直接影响到公司效益. 但是:“有价值的客户需求在哪里,对有价值的需求如何进行汇总.分析.”目前大量的理论体系到此为止,如何在实际的操作层面上进行下去?如何执行? 很多企

生成对抗网络 Generative Adversarial Networks

转自:https://zhuanlan.zhihu.com/p/26499443 生成对抗网络GAN是由蒙特利尔大学Ian Goodfellow教授和他的学生在2014年提出的机器学习架构. 要全面理解生成对抗网络,首先要理解的概念是监督式学习和非监督式学习.监督式学习是指基于大量带有标签的训练集与测试集的机器学习过程,比如监督式图片分类器需要一系列图片和对应的标签("猫","狗"-),而非监督式学习则不需要这么多额外的工作,它们可以自己从错误中进行学习,并降低未来

mumu血压计母亲节“拼团”盛大开启,百度与厂商打造双赢局面

在BAT的互联网时代,似乎任何新兴产品和服务都不能脱离BAT的支持,作为中国互联网体量最庞大的三家企业,BAT代表的是资源优势.用户优势.品牌优势.因此,一旦脱离BAT的支持,想迅速做大无异于天方夜谭.以可穿戴设备为例,虽然很多厂商都在布局该领域,也在通过各种渠道为产品造势,但用户反响却聊聊无几,其中一个原因就是"小胳膊拧不过大腿"------没有核心的资源和用户,产品根本无法深入市场. 反过来说,能得到BAT支持的可穿戴设备将有更多的机会做大做强.举个例子,据统计,有一款mumu智能

《生成对抗网络GAN的原理与应用专题》笔记

视频教程的链接:http://campus.swarma.org/gpac=8 一.什么是GAN 框架简述 GAN全称是Generative Adversarial Nets,中文叫做"生成对抗网络". 在GAN中有2个网络,一个网络用于生成数据,叫做"生成器".另一个网络用于判别生成数据是否接近于真实,叫做"判别器". 下图展示了最简单的GAN的结构以及工作原理. 模型中最左侧的随机向量是为了让生成器产生不同的输出,而增加的扰动项.这些扰动决定

走近,我们双赢!擦肩而过,我们只是路人

走近,我们双赢!擦肩而过,我们只是路人!我什么都不相信,只相信人性,有很多时候欲言又止的话因为人性,很多想要做而不敢做的事情因为人性, 很多想做而不敢做的决定也是因为人性. 而至于每个人的人性是什么样的,自己都说不好,因为都有其两面性.就是因为这个两面性,才是面对一个人或者事或者问题时举棋不定的原因.心态上的困窘,才是堵住自己财路的根本原因啊.八十年代初,摆个地摊就能发财,几个敢摆?九十年代初,买支股票就能挣钱,几人敢买?二十一世纪,开个网站就能赚钱,那个会开?把握不住机会,即使有机会也不敢去尝