对NLP的一些新认识

  其实这是老板让上交的一份总结,贴出来,欢迎朋友们批评指正。

  

最近看了一部分关于NLP的几篇论文,其中大部分为神经网络实现,

从基本的HMM算法实现,到LSTM实现,有很多方法可以用来处理NLP任务中的阅读、QA或者记忆功能。另外,Facebook给出了20个NLP任务,也有一些公认的测试数据集。目前很多网络的改进和优化,以及各个LSTM变种的目标都是去完成这20个任务。

目前看完的论文的各种做法中:

1)         基于门函数控制的LSTM处理,属于网络变种,

2)         对序列化后读入的每一个词进行答案分析,最终得出分值比较高的答案,根据词序列,每读入一个词,结合问题序列分析一次答案,

3)         使用外部记忆模块,根据测试结果,将记忆模块分块分级,记忆效果更好,能有效加速查询,

4)         有些使用RNN+DNN组合网络的方法,能够实现较好的效果,

5)         相对于其他变种,觉得GRU的效果更好,或者说他结合了门控制函数,用于控制信息记忆与遗忘,这种机制比较好,

6)         也有些方法中,引入了知识图谱,作为预处理信息,但是这里,在实际应用中如何解决知识图谱的自动构建和更新,以及知识冲突时的规避原则等,都没有解决方案,

7)         也有方案中,自定义规则,抽取简单句问题中的几种问题类型,进行分门别类,但是面对多级问题时规则一点儿作用没有,或者说需要完整的规则,几乎不可能实现,

8)         在网络中引入聚焦模式的话,能够根据输入序列使得与问题相关的部分序列更加突出,也就相当于划重点的含义,

9)         有的引入大规模记忆模型,但是觉得模型应该是有网络可以直接参考的短期记忆,也应该有大规模的长期记忆,

10)     Facebook团队设计的端对端记忆网络模型中,构建了答案字典,可以用阈值限定精确匹配的标准,

11)     新的有效模型是循环聚焦模型,RNN+attention机制,

12)     有的使用了POS(part of speech)对输入语句进行语义解析,这个很难,但是具体效果上,或者从长期发展上看,不好说。目前已经有了较为准确进行语义解构的平台或者API,

  一家之言,认识还不成熟,目前禁止转载,

时间: 2025-01-12 19:45:56

对NLP的一些新认识的相关文章

NLP/CL 顶会收录

全文转载自知乎@刘知远老师:初学者如何查阅自然语言处理学术资料(2016修订版). 1. 国际学术组织.学术会议与学术论文 自然语言处理(natural language processing,NLP)在很大程度上与计算语言学(computational linguistics,CL)重合,是计算机科学与语言学的交叉学科,也是人工智能的重要方向.与其他很多计算机分支方向类似,由于技术发展迅速,NLP/CL重视学术会议胜过学术期刊.由于发表周期短,并可以通过会议进行交流,绝大多数最新的重要科研进展

[转]初学者如何查阅自然语言处理学术资料

作者:刘知远 原文链接 最近实验室刚进组的一位同学发邮件来问我如何查阅学术论文,这让我想起自己刚读研究生时茫然四顾的情形:看着学长们高谈阔论领域动态,却不知如何入门.经过研究生几年的耳濡目染,现在终于能自信地知道如何了解最新科研动态了.我想,这可能是初学者们都会有的困惑,与其只告诉一个人知道,不如将这些经验写下来,来造福更多同学吧.当然,这个总结不过是一家之谈,只盼有人能从中获得一点点益处.受个人认知所限,难免挂一漏万,望大家海涵指正. 1. 国际学术组织.学术会议与学术论文 自然语言处理(na

将迁移学习用于文本分类 《 Universal Language Model Fine-tuning for Text Classification》

将迁移学习用于文本分类 < Universal Language Model Fine-tuning for Text Classification> 2018-07-27 20:07:43 ttv56 阅读数 4552更多 分类专栏: 自然语言处理 版权声明:本文为博主原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接和本声明. 本文链接:https://blog.csdn.net/u014475479/article/details/81253506 本文发表于自然语言

美国政府关于Google公司2013年度的财务报表红头文件

请管理员移至新闻版块,谢谢! 来源:http://www.sec.gov/ 财务报表下载↓ 此文仅作参考分析. 10-K 1 goog2013123110-k.htm FORM 10-K UNITED STATES SECURITIES AND EXCHANGE COMMISSION Washington, D.C. 20549     FORM 10-K (Mark One)       ý ANNUAL REPORT PURSUANT TO SECTION 13 OR 15(d) OF TH

使用RNN解决NLP中序列标注问题的通用优化思路

/* 版权声明:可以任意转载,转载时请标明文章原始出处和作者信息 .*/ author: 张俊林 序列标注问题应该说是自然语言处理中最常见的问题,而且很可能是最而没有之一.在深度学习没有广泛渗透到各个应用领域之前,传统的最常用的解决序列标注问题的方案是最大熵.CRF等模型,尤其是CRF,基本是最主流的方法.随着深度学习的不断探索和发展,很可能RNN模型会取代CRF的传统霸主地位,会成为解决序列标注问题的标配解决方案. 本文主要抽象出利用RNN解决序列标注问题的通用优化思路.这个RNN优化思路应该

NLP系列(5)_从朴素贝叶斯到N-gram语言模型

作者: 龙心尘 && 寒小阳 时间:2016年2月. 出处:http://blog.csdn.net/longxinchen_ml/article/details/50646528 http://blog.csdn.net/han_xiaoyang/article/details/50646667 声明:版权所有,转载请联系作者并注明出处 1. 引言:朴素贝叶斯的局限性 我们在之前文章<NLP系列(2)_用朴素贝叶斯进行文本分类(上)>探讨过,朴素贝叶斯的局限性来源于其条件独立

【NLP】十分钟学习自然语言处理

十分钟学习自然语言处理概述 作者:白宁超 2016年9月23日00:24:12 摘要:近来自然语言处理行业发展朝气蓬勃,市场应用广泛.笔者学习以来写了不少文章,文章深度层次不一,今天因为某种需要,将文章全部看了一遍做个整理,也可以称之为概述.关于这些问题,博客里面都有详细的文章去介绍,本文只是对其各个部分高度概括梳理.(本文原创,转载注明出处:十分钟学习自然语言处理概述  ) 1 什么是文本挖掘? 文本挖掘是信息挖掘的一个研究分支,用于基于文本信息的知识发现.文本挖掘的准备工作由文本收集.文本分

浅谈我对机器学习和文本挖掘的新的理解

转眼间已经工作了一段时间了,回想起2014年初学机器学习时的付出.艰苦和努力,感觉都是值得的.从现在往前看,我是沿着“计算机->统计学->数据分析->数据挖掘->机器学习->文本挖掘”的路径走过来的,我觉得这个思路还是属于比较传统的进阶方法,学习的内容有不少的冗余,但相对来说更稳健一些.今天写这篇文章的目的是想总结一下我最近关于文本挖掘的工作体会以及我对机器学习的一些新的看法,只为探讨,还望与大家共勉. 我先来说一些文本挖掘的东西.似乎大家做Text Mining的不太多,可

Python之NLP(转)

http://blog.csdn.net/caicai1617/article/details/21191781 <使用Python进行自然语言处理>学习笔记五 标签: python自然语言处理nlp 2014-03-13 21:48 7834人阅读 评论(3) 收藏 举报  分类: 自然语言处理(13)  Python(11)  版权声明:本文为博主原创文章,未经博主允许不得转载. 目录(?)[+] 第三章 加工原料文本 3.1 从网络和硬盘访问文本 1 电子书 古腾堡项目的其它文本可以在线