机器人--寒暄库(4)

目前智能QA系统都是基于seq2seq模型来开发（如google），seq2seq模型基于one-hot的词嵌入，每个词用一个数字代替不足以表示词与词之间的关系，word2vec通过多维向量来做词嵌入，能够表示出词之间的关系，比如：男-女≈王子-公主。基于seq2seq的思想，利用多维词向量来实现模型，预期会有更高的准确性。（~~说人话：就是把每个汉字按照一定的规则转换为一个多维矩阵表示，联系越紧密的词，在空间上距离越近，那么我们就可以得到各种近义词，如高兴=开心等）

so 为什么要基于seq2seq模型来做智能问答，其他模型不行吗？

答案是yes。其他模型也可以完成一个比较好的QA模型，业界流行2大方法论：1、基于文法规则的NLP,2、基于统计学的NLP。只是这2种方式的实现的代价不一样。基于文法规则的来做NLP，优势是准确率会非常高，你想想，每个组词规则、每句话的主谓宾都给你标出来，这样的NLP如果做出来了是接近完美的；劣势也很明显，工作量太巨大，汉语光汉字就有几万个，组词规则会更多，很难做到完全统计，难以快速迭代应用。相反基于统计学的NLP（seq2seq是统计学模型），他的准确率未必会有前者高，但是他的兑现速度快，可以在实际应用过程不断迭代，提高准确率。这种方法的思路就是基于一批有限规模的语料库，做机器学习，让机器不断学习文法规则，以适用于某一特定领域，达到智能交互的目的。当前比较大厂商的QA都是基于第2中方法的思路来做，比如：京东、图灵、百度等。

接着谈什么是seq2seq,为什么在统计学的诸多模型中，要选用他？

在网上找的一个简洁的说明，主要参考《Sequence to Sequence Learning with Neural Networks》这篇论文，核心思想如下图：

ABC是输入语句，WXYZ是输出语句，EOS是标识一句话结束，图中的训练单元是lstm，lstm的特点是有长短时记忆，所以能够根据输入的多个字来确定后面的多个字，有关lstm的知识可以参考《http://deeplearning.net/tutorial/lstm.html》

上面的模型中编码器和解码器共用了同一个lstm层，也就是共享了参数，牛人们尝试把他们分开像 https://github.com/farizrahman4u/seq2seq中提到的样子：

其中绿色是编码器，黄色是解码器，橙色的箭头传递的是lstm层的状态信息也就是记忆信息，编码器唯一传给解码器的就是这个状态信息

我们看到解码器每一时序的输入都是前一个时序的输出，从整体上来看就是：我通过不同时序输入"How are you <EOL>"，模型就能自动一个字一个字的输出"W I am fine <EOL>"，这里的W是一个特殊的标识，它既是编码器最后的输出，同时又是解码器的一个触发信号

那么我们训练的时候输入的X,Y应该是什么呢？X="How are you <EOL>"，Y="W I am fine <EOL>"?

这是不行的，因为在解码器还没有训练出靠谱的参数之前，我们无法保证第一个时序的输出就是"I"，那么传给第二个时序的输入就不一定是I，同样第三、四个时序的输入就无法保证是am和fine，那么是无法训练出想要的模型的

我们要这样来做：我们直接把解码器中每一时序的输入强制改为"W I am fine"，也就是把这部分从我们训练样本的输入X中传过来，而Y依然是预测输出的"W I am fine <EOL>"，这样训练出来的模型就是我们设计的编码器解码器模型了

那么在使用训练好的模型做预测的时候，我们改变处理方式：在解码时以前一时序的输出为输入做预测，这样就能输出我们希望输出的"W I am fine <EOL>"了

我们采用seq2seq模型的最主要原因就是模型拥有长时记忆能力，而且记忆能力可以根据我们的需求进行控制，这种特性在我们汉语处理中至关重要。有时候一句话的意思需要头和尾加在一起我们才能完全理解，这个道理同样适用机器。

下次再谈基于seq2seq模型怎么做寒暄库。经典模型代码

https://github.com/warmheartli/ChatBotCourse/blob/master/chatbotv2/my_seq2seq_v2.py

文献资料：

http://cn.arxiv.org/pdf/1409.3215.pdf

时间： 2024-10-23 20:41:30

机器人--寒暄库(4)的相关文章

机器人--寒暄库（数据准备2）

上次说了机器人的寒暄库需要基于seq2seq模型来做训练,训练的前提是我们准备好了足够的数据. 这次来说一下数据准备工作. 数据的来源一般分为内部已有的积累数据,另一个就是互联网数据,比如百度...百度几乎就是互联网的一个镜像.内部积累的文本数据有限,远不如网络数据丰富.so我们就要考虑怎么获取到网络文本数据了,可能你已经猜到了,那就是爬虫. python的scrapy是一个快速,高层次的屏幕抓取和web抓取框架,用于抓取web站点并从页面中提取结构化的数据安装 yum install lib

机器人--寒暄库（数据准备）

上次说了机器人的寒暄库需要基于seq2seq模型来做训练,训练的前提是我们准备好了足够的数据. 这次来说一下数据准备工作. 数据的来源一般分为内部已有的积累数据,另一个就是互联网数据,比如百度...百度几乎就是互联网的一个镜像.内部积累的文本数据有限,远不如网络数据丰富.so我们就要考虑怎么获取到网络文本数据了,可能你已经猜到了,那就是爬虫. python的scrapy是一个快速,高层次的屏幕抓取和web抓取框架,用于抓取web站点并从页面中提取结构化的数据安装 yum install lib

机器人--寒暄模型

上次说到了智能推荐是怎麽做的,这次聊一下寒暄库的建设思路. 目前智能QA系统都是基于seq2seq模型来开发(如google),seq2seq模型基于one-hot的词嵌入,每个词用一个数字代替不足以表示词与词之间的关系,word2vec通过多维向量来做词嵌入,能够表示出词之间的关系,比如:男-女≈王子-公主.基于seq2seq的思想,利用多维词向量来实现模型,预期会有更高的准确性.(~~说人话:就是把每个汉字按照一定的规则转换为一个多维矩阵表示,联系越紧密的词,在空间上距离越近,那么我们就可

机器人--推荐系统(1)

430的目标是完成机器人的推荐系统,提高机器人回答问题的准确率,关于过程碰到的问题以及解决方案与大家分享一下,(请轻喷!) 那么这个推荐系统到底应该怎么做呢? 最开始的第一个思路是根据用户进入到ERP的模块推荐该模块下的相关问题.其实就是根据用户的轨迹来推荐问题,这是一个思路但是不太完整.因为很有可能用户就从ERP的桌面就进入了机器人,但他实际要咨询的是销售系统的相关知识,那么此时的推荐就不太满足用户的咨询需求. 因此参考一些业界其他公司的做法,可以基于内容的协同过滤(Collaborat

机器人--推荐系统

430的目标是完成机器人的推荐系统,提高机器人回答问题的准确率,关于过程碰到的问题以及解决方案与大家分享一下,(请轻喷!) 那么这个推荐系统到底应该怎么做呢? 最开始的第一个思路是根据用户进入到ERP的模块推荐该模块下的相关问题.其实就是根据用户的轨迹来推荐问题,这是一个思路但是不太完整.因为很有可能用户就从ERP的桌面就进入了机器人,但他实际要咨询的是销售系统的相关知识,那么此时的推荐就不太满足用户的咨询需求. 因此参考一些业界其他公司的做法,可以基于内容的协同过滤(Collaborat

机器人程序设计——之如何正确入门ROS | 硬创公开课（附视频/PPT）【转】

转自:http://blog.exbot.net/archives/2966 导语:本期公开课面向想入手ROS却又不知从何下手的小伙伴,为大家梳理好学习思路. ROS和Android一样是开源的,功能上也是相差无几,它可以提供硬件抽象,底层设备控制,常用功能实现,进程间消息以及数据包管理.其独特之处在于,能够支持多种语言,如C++.Python.Octave和LISP,甚至支持多种语言混合使用,这可以简化开发者的工作.因为它是基于Linux的系统,其可靠性也会更高,体积可以做到更小,适合嵌入式设

Python 库大全

作者:Lingfeng Ai链接:http://www.zhihu.com/question/24590883/answer/92420471来源:知乎著作权归作者所有.商业转载请联系作者获得授权,非商业转载请注明出处. Awesome Python中文版来啦! 本文由伯乐在线 - 艾凌风翻译,Namco 校稿.未经许可,禁止转载!英文出处:github.com.欢迎加入翻译组. 原文链接:Python 资源大全 1200+收藏,600+赞,别只顾着自己私藏呀朋友们 ------------

推荐一些相见恨晚的 Python 库「一」

原创 2017-08-14 马超 DeveloperPython 扯淡首先说明下,这篇文章篇幅过长并且大部分是链接,因此非常适合在电脑端打开访问. 本文内容摘自 Github 上有名的 Awesome Python.这是由 vinta 在 14 年发起并持续维护的一个项目. Awesome Python 涵盖了 Python 的方方面面,主要有 Web框架.网络爬虫.网络内容提取.模板引擎.数据库.图片处理.数据可视化.文本处理.自然语言处理.机器学习.日志.代码分析等.学会这些库,保证你在

Python常用库大全，看看有没有你需要的

作者:史豹链接:https://www.zhihu.com/question/20501628/answer/223340838来源:知乎著作权归作者所有.商业转载请联系作者获得授权,非商业转载请注明出处. 环境管理管理 Python 版本和环境的工具 p – 非常简单的交互式 python 版本管理工具. pyenv – 简单的 Python 版本管理工具. Vex – 可以在虚拟环境中执行命令. virtualenv – 创建独立 Python 环境的工具. virtualenvwrapp

猜你喜欢

android-studio的gradle plugin配置相关的一些记录

感觉就是越高的Gradle版本对应的plugin越高. 你妹的,是不是2.10版本低于2.2版本,我还以为是2.10版本高于2.8.2.9版本呢.每次用2.10版本构建,用1.2.2等都不行.提示最低 ...

Github只下载某一目录的文件

比如要下载: https://github.com/xubo245/SparkLearning/tree/master/docs 将"tree/master"改成"tru ...

2016.01.13总结

Leetcode题解（1）：L102/Binary Tree Level Order Traversal

L102: Binary Tree Level Order Traversal Given a binary tree, return the level order traversal of its ...

BZOJ 2324 营救皮卡丘（最小费用最大流）

题目链接:http://61.187.179.132/JudgeOnline/problem.php?id=2324 题意:n+1个城市(0到n).初始时K个人都在0城市.城市之间有距离.要求(1) ...

session超时设置

具体设置很简单,方法有三种: (1)在主页面或者公共页面中加入:session.setMaxInactiveInterval(600);参数600单位是秒,即在没有10分钟活动后,session将失效 ...

编程题：字符串与字符数组的输入方法。

#include<stdio.h> void main() {char str1[6],str2[10]; int i; for(i=0;i<5;i++) scanf("% ...

洞穴勘测（bzoj 2049）

Description 辉辉热衷于洞穴勘测.某天,他按照地图来到了一片被标记为JSZX的洞穴群地区.经过初步勘测,辉辉发现这片区域由n个洞穴(分别编号为1到n)以及若干通道组成,并且每条通道连接了恰好 ...

Find the Celebrity 解答

Question Suppose you are at a party with n people (labeled from 0 to n - 1) and among them, there ma ...

IPC机制

1.IPC简介 IPC是Inter-Process Commun ...

【ubuntu】root账号启用方法

ubuntu的root用户默认是禁止的,需要手动打开才行一般情况下ubuntu下的所有操作都用不到root用户,由于sudo的合理使用,避免了root用户错误操作. [错误类型]用su -命令切换到 ...

解决animate动画连续播放bug

在animate动画中,如果几个div之间频繁切换,会导致鼠标移开后,动画仍在继续,解决方法有两个一个,判断当前是否在运行动画: if(!$(".block").is(" ...

get和figure

1.get scrsz = get(0,'ScreenSize'); %显示电脑的分辨率, 每台计算机,句柄的根对象只有一个,就是屏幕,它的句柄总是0 ScreenSize is 四维向量: [ ...

PCL—综述—三维图像处理

点云模型与三维信息三维图像是一种特殊的信息表达形式,其特征是表达的空间中三个维度的数据.和二维图像相比,三维图像借助第三个维度的信息,可以实现天然的物体-背景解耦.除此之外,对于视觉测量来说,物体的 ...

【面试加分项】java异常处理之try_catch_finally

try_catch_finally大家应该用的很多,不少人也了解一些他们的执行顺序,可是它真的有这么简单么,下面我们先来看一段代码,大家想想他的执行结果是什么? public class TestEx ...

c#之Stringbuilder、String、Append

问题引出: StringBuilder sqlQuery = new StringBuilder(); sqlQuery.Append("SELECT COUNT([ProductID]) ...

CRL通用权限控制系统

此系统能满足一般权限/菜单控制需求,不需要重复开发,达到多系统共用的目的权限判断是基于请求路径,意味着是页面级控制,可能不符合一些要求,当然你也可以把路径细化实现菜单为二级菜单,暂不支持多级此系 ...

linux 服务初识

1. daemon 和 service 系统为了实现某些功能,必须提供一些服务(service),但是service的提供总是需要进程的运行,实现service 的程序我们称为daemon(“守护神” ...

Android基础入门教程——8.3.1 三个绘图工具类详解

Android基础入门教程--8.3.1 三个绘图工具类详解标签(空格分隔): Android基础入门教程本节引言: 上两小节我们学习了Drawable以及Bitmap,都是加载好图片的,而本节我 ...

SQLSERVER中跨库执行更新操作

declare @DeptName varchar(50), @LoadCount float, @TransCount float, @HisLoad float, @HisTrans float, ...

专题

随机推荐

© 2024 憋错料 | info#biecuoliao.com | 10 q. 0.024 s.