2016年,文本分析、情感分析和社交分析的10大趋势

文本分析、情感分析和社交分析帮助你在一定规模上转化成客户、病人、公众以及市场的“声音”。这项技术目前大量地应用于一系列的工业产品中,从医疗健康到金融、媒体、甚至客户市场。它们从线上、社交网络、企业数据源中提取商业洞察力。

它从文本中、音频中、图像中还有网络连接中提取洞察力,它可真是个有用的东西!

目前分析技术发展得还是相当不错的,尽管在某些领域,例如数字分析和市场研究有些稍稍落后。但是甚至是在例如“客户体验、社群聆听、用户交互”方面,还是有很多发展空间。这个快速发展的市场空间无论对于新加入的玩家还是深耕已久的资深人士都意味着大量的机遇。

随着技术和应用不断融合,与其独立地检验每个分析领域,还不如好好地观察整体的效果。忽视情感的社交分析是不完整的,并且为了从网络上获取社交情感数据并调查情感数据,我们真的需要文本分析技术。

本文对即将到来的2016年,针对文本分析、情感分析和社交分析的发展趋势进行一个前瞻性的观察。

一、多语言才是王道

尽管单纯英文的文本分析一直保持常态,但仅将一种语言做好,也比囊括很多种语言,却哪种都做得潦草要强得多。机器学习和机器翻译已经向着多语种文本分析迈进了一大步,使其成为一个全新的标准。但是如果你的确需要做多语种的开发尝试,事先也要做一些调查:很多开发者在其核心语言上很强,但在别的语言上就很弱了。所以说选择的时候还是小心一点。

二、文本分析获得认可

文本分析能力对于客户体验、市场研究、客户洞察、数字分析乃至媒体评测来说都是关键解决方案,各个文本分析服务提供商在分析能力的优势上不断竞争。总的趋势是“量化定性”,文本分析被纳入业务解决方案中是十分重要的事。

三、机器学习、统计学和语言工程并存

明天是属于机器学习、递归神经网络以及相似技术的,但是今天,长期建立的语言工程方法仍占上风。这里我指的是分类系统、分析器、词法和句法网络以及句法规则系统。目前我们处在一个“百花齐放、百家争鸣”的时代,所以很多种方法都是可以并存的。举例来说,甚至众包数据处理的领军企业:CrowdFlower都全面拥抱机器学习了,初创企业Idibon都把传统和现代相结合作为一大卖点:“你可以组建自定义的分类系统,并使用机器学习、规则和你已有的字典/模式去调整它们。”

四、图像分析进入主流

全球领先的图像分析提供商已将图像分析技术应用于社交媒体的品牌信号解读中---不信你看看Pulsar和Crimson Hexagon---并且通过机器学习,图像分析技术已成为IBM在2015年收购Alchemy API的一大卖点。的确,火热的初创企业MetaMind在2015年从NLP领域转型到图像分析,缘于其意识到图像分析背后的巨大机遇。

五、语音分析取得突破,视频分析随之而来

整个市场喜欢谈论多渠道分析和用户旅程,这涉及到多重触点。并且社交网络和网络媒体中充斥着视频,说出来的话,还有非文本形式的语言要素,包括语调、语速、音量和重复,都传递着含义,而这些含义都可以通过语音分析和语音转文字来获取。不仅仅是客服中心,2016年,所有的市场研究人员、出版人员、研究和洞察专业人士都在不断寻找突破。可以期待,未来语音分析也将成为推动人机会话接口发展的重要力量。

六、扩展式情感分析

广告人员早就认识到情感可以改变消费者的决定,但直到近日,广泛地、系统地对于情感与决策的研究已经超越了我们的能力范围。根据你的角度,进入情感分析,或者是情感分析的子类,或者是其姊妹类。带着量化我们的情绪反应的目的,使用面部表情分析从图像和视频中(或从语音或文本中)提取我们的情感状态。这方面的服务提供商有:视频服务的Affectiva、Emotient和Realeyes,语音服务的Beyond Verbal以及文本服务的Kanjoya;相关的受众包括广告商、媒体、市场研究人员和代理商。

七、ISO 网络表情分析

我们已经有了文本、图像、语音、视频等,那为什么我们还要用网络表情呢?因为它们简洁、易用、生动、有趣,它们补充并且对长格式的内容形成冲击,这就是为什么互联网俚语灭亡了。Facebook正在尝试对网络表情进行挖掘,更好的是,我们还看到了像Line stickers这样的变种。现在我们需要的就是网络表情分析了。这个领域的技术正在通过像Emogi这样的初创企业不断兴起。尽管大多数人也不过就是用计数和分类来获取网络表情语义,像Instagram工程师Thomas Dimson和斯洛文尼亚研究组织CLARIN.SI都是这么干的。但他们当中的一些公司,比如SwiftKey,还是值得关注的。

八、网络+内容的深度洞察

这一点既是我对于2016年的趋势预测,同时我在2015年对市场研究公司TNS的数据科学家Preriit Souda访谈时也提到过。Preriit指出:“网络为会话赋予结构,内容挖掘为其赋予含义。”洞察力源自于对于信息与连接的理解,也来自于连接是如何被激活的。因此为你的工具包加一个图形数据库和网络可视化工具吧,这就是为什么Neo4j.js和Gephi这么成功的原因。建立一个类似于QlikView的数据分析平台也是一个选择,一个可以协同文本和数字分析的选择,对于2016年来说这是一定要做的事。

九、2016年,你会读到(或与之交互)多得多的机器编写的内容

机器编写内容的技术叫自然语言合成(Natural Language Generation,NLG),它提供根据算法从文本、数据、规则和内容中撰写文章、信件、短信息、摘要和翻译的能力。NLG就是为大容量、高重复量的内容而生的:金融、体育和天气预报。相关的服务提供商有Arria、Narrative Science、Automated Insights、Data2Content和Yseop。你也可以看看你与你心爱的虚拟助手进行对话时的机器端:Siri、Google Now、Cortana或是Amazon Alexa,或是自动客服、其它程序化相应系统。后面的这些系统都归类于自然语言交互(Natural Language Interaction,NLI);其中Artificial Solutions还是值得一看的。

十、机器翻译逐渐成熟

长久以来,人们一直希望拥有一个“星际迷航”那样的通用翻译器,但自从1950年科学家称机器翻译可以在3~5年内实现,精准的、可信赖的机器翻译就一直是个谜。(ACM Queue撰文《Natural Language Translation at the Intersection of AI and HCI》充分地讨论了人机结合条件下机器翻译的状态)我不能说胜利就在眼前,但是多亏了大数据和机器学习,2016年(或2017年)对于大多数任务来说,主流语言的机器翻译能做到足够好。这就是胜利!

总结

如果你是一个文本分析、情感分析或是社交分析学家,解决方案提供商或是用户,每一个趋势都会影响到你,无论是直接地还是间接地。因为人类的数据现在已经被编织成为我们每天赖以生存的技术网。连接这张网的线就是更多的数据,更有效地使用,来创造改变生活的机器智能。

原文:10 text, sentiment, and social analytics trends for 2016

时间: 2024-11-05 18:58:17

2016年,文本分析、情感分析和社交分析的10大趋势的相关文章

实训项目:基于TextCNN汽车行业评论文本的情感分析

基于TextCNN汽车行业评论文本的情感分析 使用卷积神经网络对汽车行业评论文本进行情感分析. 数据集 爬取汽车之家车主口碑评论文本,抽取口碑中最满意以及最不满意评论文本,分别作为正向情感语料库和负向情感语料库. 语料库基本信息如下: 训练集(data/ch_auto_train.txt): 40000 = 20000(pos) + 20000(neg) 验证集(data/ch_auto_dev.txt): 10000 = 5000(pos) + 5000(neg) 测试集(data/ch_au

【译】SAE:一个大规模网络的社交分析引擎

Yang Yang, Jianfei Wang, Yutao Zhang, Wei Chen, Jing Zhang, Honglei Zhuang, Zhilin Yang, Bo Ma, Zhanpeng Fang, Sen Wu, Xiaoxiao Li, Debing Liu, and Jie Tang Deparment of Computer Science and Technology, Tsinghua University 发表时间:2013 发表刊物:KDD 摘要     在

Power-BI 关于2016年7月份深圳一手房房价分析报表 腾讯课堂开课啦

上周我们的公开课讲了全国房地产投资开发的情况,通过对时间.区域等多维度的分析,透析了全国房地产开发的投资情况.这周呢,我们就全国一线城市的房价,选取了深圳作为分析对象,对深圳一手房房价进行一个分析. 都说房价是炒高的.在深圳的楼市里有这样一道风景:我有房,只是房产证上不是我的名字.深圳房价贵得离谱已是不争的事实.地王频出.滥用金融杠杆等推高深圳房价,引社会各界关注的同时,也遭到质疑.深圳的房价居高不下,这周的公开课我们就来全方位多层次的讲讲2016年7月份深圳一手房的房价涨跌走势.热度房户型.受

CVE-2013-3897漏洞成因与利用分析(UAF类漏洞分析流程)

CVE-2013-3897漏洞成因与利用分析(UAF类漏洞分析流程) 1. 简介 此漏洞是UAF(Use After Free)类漏洞,即引用了已经释放的内存.攻击者可以利用此类漏洞实现远程代码执行.UAF漏洞的根源源于对对象引用计数的处理不当,比如在编写程序时忘记AddRef或者多加了Release,最终导致对象的释放.对于IE的大部分对象(COM编程实现)来说,+4偏移处的含义是该对象的引用计数,可以通过跟踪它来定位补丁前后的位置及被释放的位置.+0偏移处的含义是该对象的虚函数表指针,可以通

代码分析—“CA0052 没有选择要分析的目标”(VS2012)

情况: 1.未采用代码分析时程序正常编译 2.采用代码分析,会提示"没有选择分析目标"或"未加载制定版本的程序集"...的错误 分析: 是由于代码分析依赖程序集的强签名,包括版本 解决方案: 1.修改代码分析工具的配置项: FxCopCmd.exe.config里节点AssemblyReferenceResolveMode的Value值StrongName修改为StrongNameIgnoringVersion或None 2.修改当前分析的项目: .csproj增加

Tomcat源码分析之—具体启动流程分析

从Tomcat启动调用栈可知,Bootstrap类的main方法为整个Tomcat的入口,在init初始化Bootstrap类的时候为设置Catalina的工作路径也就是Catalina_HOME信息.Catalina.base信息,在initClassLoaders方法中初始化类加载器,然后通过反射初始化org.apache.catalina.startup.Catalina作为catalina守护进程: 一.load Bootstrap中load流程: 反射调用Catalina的load方法

cocos2d-x 源码分析 : control 源码分析 ( 控制类组件 controlButton)

源码版本来自3.1rc 转载请注明 cocos2d-x源码分析总目录 http://blog.csdn.net/u011225840/article/details/31743129 1.继承结构 control的设计整体感觉挺美的,在父类control定义了整个控制事件的基础以及管理,虽然其继承了Layer,但其本身和UI组件的实现并没有关联.在子类(controlButton,controlSwitch,controlStepper等中实现不同的UI组件).下面通过源码来分析control与

8、SpringMVC源码分析(3):分析ModelAndView的形成过程

首先,我们还是从DispatcherServlet.doDispatch(HttpServletRequest request, HttpServletResponse response) throws Exception方法开始,看看这个牛逼的ModelAndView是怎么开始的,又是怎么结束的: 1 protected void doDispatch(HttpServletRequest request, HttpServletResponse response) throws Except

Solr4.8.0源码分析(5)之查询流程分析总述

Solr4.8.0源码分析(5)之查询流程分析总述 前面已经写到,solr查询是通过http发送命令,solr servlet接受并进行处理.所以solr的查询流程从SolrDispatchsFilter的dofilter开始.dofilter包含了对http的各个请求的操作.Solr的查询方式有很多,比如q,fq等,本章只关注select和q.页面下发的查询请求如下:http://localhost:8080/solr/test/select?q=code%3A%E8%BE%BD*+AND+l