说“快乐”还是“安康”?如何在不抬杠的情况下用AI搞定这问题

祝大家端午节快乐,我们今天要聊的…..什么?不能说快乐了?显得没文化?

哦,那祝大家端午节安康,咱们今天……什么?端午节安康都是一群营销号瞎忽悠的,相信他们还是没文化?

到底还能不能好好说话了?要不我干脆祝大家端午节多吃月饼得了?

放眼望去,这个折腾了几年,某种程度上近乎于闹剧的“端午节安康”问题,在今年非但没有停下来的意思,反而矛盾愈演愈烈,一时间好不热闹。也不知道是不是已经有了“安康快乐对骂群”,反正整体上是感觉这事挺耽误大家吃粽子的时间的。

在我们这行业看来,当然是一切能动科技的都别瞎吵吵。既然到了相持不下的境地,是不是可以考虑用相对公允的方式来解决无止境的争论呢?毕竟安康派和保快乐党都说自己是传统文化,既然是传统总归是有据可循的。

今天是个思古的日子,不妨让我们从安康和快乐的问题开始,来聊聊AI+考据的“怀古之思”。

到底争的是什么?

安康派之所以诞生,是因为前两年突然朋友圈里有这么个说法火了:端午节是纪念屈原,或者纪念伍子胥、纪念曹娥的。总之这是个祭祀和哀伤的日子,不能说快乐。这个说法很快流行起来,比如今天大部分明星发的端午节微博,似乎“安康”已经成了标准说法。

根据凡事必有反转的互联网定律,随后也有人认为这种说法纯属无稽之谈。端午节快乐说了那么多年,我想快乐就快乐还用你批准?于是,争论最终很自然地变成了争吵,两边都觉得自己是更符合传统文化的一方。

首先笔者非常想要感慨的是,整个话题中最大成分只是营销号恶意蹭流量,以及广大网友们进行喜闻乐见的“抬杠运动”,真没什么意思。

而实事求是地说,现在能找到最早过端午节传统的记载,是唐代《艺文类聚》保留《续齐谐志》中南朝时期的民间节日风俗,在端午这天为纪念屈原而系五彩绳、包粽子。换言之端午节最早出现在可追溯的历史文本中,它就是以一个有吃有玩的节日出现的。而早期文本,比如出现屈原其人其事的《史记》,据说为屈原创作的《楚辞》,都没有过任何五月初五相关的记载。

作为一个节日的端午,自然也承担着一个节日的气氛和话语定位。唐宋时对端午节、端阳节的记载,也基本是把酒言欢为主。当然这是个追怀的日子,但也没见过一定要在这个日子肃穆庄严的记载。很多历史学教授专家,也对安康说不屑一顾。

话说回来,重阳是避灾躲难的,那也有“佳节又重阳”。而今天肯定没有人祝邻居“清明节快乐”,但在古人来看清明本就是郊游玩赏值得开心的日子。程颢《郊行即事》是这么说的,“莫辞盏酒十分劝,只恐风花一片飞。况是清明好天气,不妨游衍莫忘归”。

或许可以这么说,所谓的中华传统,远比我们今天的互联网氛围宽怀大度的多。

好吧,一不小心暴露了立场。但是我们还是要强行回归中立客观:既然你有你的道理,我有我的道理,那到底怎么能彼此不抬杠呢?

或许AI可以在这里刷一个助攻。既然整个安康和快乐之争,争论的核心是:固定文本环境中(代表中国历史传统的文本数据,包括但不限于经史古籍),某种涵指解读(端午节到底是不是值得庆祝的)的正确性。

那么用把所有相关数据都找出来,判断一下古人到底能不能在这天快乐,似乎就是解决方案了。

AI搞清“端午到底快不快乐”实现方法

或许有人会说,这事好像用不着AI,把古籍数据里的端午节记载都搜出来。一看不就知道了吗?

想法固然是好的,但现实从来都很骨感。首先中国古籍系统当中,《四库全书》所代表的经史系统其实只是很小一部分。各种文书、档案、民间文本、吉金、出土资料,加在一起汗牛充栋都不止。假如只是用关键词搜索,或者只是用部分古籍库来完成文本方式,那么肯定无法完成完全的数据统计,从而得到的结果当然也就片面。

假如我们搜找了100个“端午快乐”的数据源,但是安康派认为还有200个反例没找到,那岂不是白忙?

而假如面对全部古籍数据(包括未电子化数据),来进行一个问题的全面求证。那么人力是完全无法负担的,而且也一定会有大量纰漏。比如说有些小众的端午节说法、隐晦的端午节记载描述难以被人发现。而且群体工作也很难形成对端午节到底是不是端康的准确标准。

假如让AI进场,至少可以解决这样几个问题:

1、确定我们要分辨的问题“端午节到底是值得庆祝的,还是反之”以后,我们可以用机器学习的方式输入大量双方观点,来形成对端午节到底应该怎么过的标准化描述。基于文本来抽取关键节点,从而准确判断一条古人过端午的记载到底是快乐的还是不能快乐。

2、非标准文本的识别。如今OCR等识别技术,已经广泛被应用到金石资料、敦煌文献、手写文档的识别中。如果我们想最大程度搞定到底端午是否快乐,就无法离开对非标准文本的识别工作,传统的文本录入方式完全是基于手工大字。早期很多中文古籍库还是以众包的方式交给本科生来录入,造成讹误百出。AI来做这些,显然在效率和准确度上都已经有了技术保障。

3、弹性判断相关数据。人工判断端文本特征的时候,很可能会漏掉一些不常见描述,很多时候这不是因为研究人员不知道这件事,而是由于大脑的选择性记忆误差,天然会漏掉不那么敏感的说法。而AI的优点是可以弹性判断相关数据,比如不说端午节,而是端阳,午日,重五,女儿节,浴兰,地腊等字眼,或者非关键词的描述形式,都可以有效处理。

4、综合感知,判断“良品率”。工业互联网技术中,一个很常见的方式是机器视觉加传感器,来综合判断出产品的质量。通过复杂的算法模型,最终得出是否良品的确定性标准。在文本温习中,类似使用GAN等算法来进行语义分析,判断一个语句含义归属的方式,显然也是可行的。比如上文中“喜逢佳节,端午良辰”,这个说法显然就是“端午快乐”。

其实吧,以上只是个例子,也没有谁会较真到去大张旗鼓统计端午到底快不快乐。这些技术的真正内涵,是一个人文学术与AI的交叉点:AI考据。

比抬杠重要:AI带给文本考据的机会与挑战

AI与考据的结合,显然比端午节问候的抬杠重要很多。这项技术在今天世界范围内还属于刚刚起步的阶段,但绝对不是无中生有。

在AI考据之前,是很多人熟悉的“E考据”概念。这个解决方案是以互联网和大数据为基础,从古籍电子化开始,用相对人力更有效率的方式来透视人文文本,甚至得出不一样的结论与分析逻辑。这个领域的代表人物,可以说是台湾的黄一农院士,其用《红楼梦》相关文献与清史文本结合,得到的成果令人耳目一新。

但E考据的局限性,在于它仅仅解决了考据第一步的问题:数据庞大。而面对庞大的数据和不同层次的文本,能否用技术取代进一步的人工,则成了考据学发展中的下一个话题。

考据的本质是什么?乾嘉学派代表人物王引之,在评价其父王念孙的治经之道时,总结为“诸说并列,则求其是,字有假借,则改其读”,充分体现了考居家的工作依据:音、形、义之间的转换与互通。

让智能体实现对语境的理解和跳出跳入,显然是仅仅依靠数据技术所无法达到的。那么AI技术也就成为了接下来文献学与历史学发展中,可以相互融合的技术手段。

马创新等所著的《中文古籍数字化的开发层次和发展趋势》中,谈到下一步电子考据与古籍开发的任务,是解决古籍内容的深层语义标注和知识检索方法。那么其能凭借的核心,似乎也仅仅是AI而已。

在电子文本分析中,AI可以让尝试,至少是帮助研究者摆脱对关键词考据的依赖,实现主动对文本含义的辨别、搜求,与多重内涵确认。这是其他技术所无法复制的。

当然即使这项技术很有用。摆在今天人文科学,尤其是文献学研究面前的挑战也非常艰巨:想要让AI技术、硬件环境与人文素养与研究能力结合,今天似乎很难有这样的跨学科人才与研究环境。而且即使是技术相对简单,效果很清晰的E考据,在传统人文研究领域面前,走的也是举步维艰。

更多现实应用场景

上面这些考据学的相关内容,可能相对有点生涩。那么最后我们不妨看看几个AI+文本考据可能带给大众的能力释放:

1、文本溯源。其实相比于端午安康的合理性,我更好奇的是这个说法是谁编出来的。而今天显然经常有这样的问题,谣言、不实信息这类的有害信息。或者一个精彩段子,一个奇思妙想的真正作者;一个文本如何被改的面目全非;一篇报道有没有断章取义,这些场景都会让我们想要溯源文本,看看最初的文本模样。这就需要成熟的AI文本考据来实现,至少是作为辅助文本溯源的方案之一。

2、问答式搜索。今天搜索引擎已经有了问答式搜索的功能,但很显然,这还仅仅是个雏形。因为大量垂直问题和具体问题,是搜索引擎的知识图谱技术无法侦测到的。而发展AI文本考据技术,可以让算法主动连接海量文本,去识别深处归纳出答案,这对于知识的传播价值巨大。

3、过往文本加链。区块链很火爆的时候,一个被提及的重要场景是电子合约与文本著作权保护。但加链技术仅仅能保存新文本。如果我们想对过往文本,比如说以某人的聊天信息、某个网站发布的谣言等等进行加链,保留不可更改的证据逻辑时,就需要涉及到对过往文本的识别与分析处理。这也是AI与区块链相结合的一个可能性。

说了不少,其实我们是想借端午安康这个梗,来谈一个平时谈比较晦涩,但其实十分重要的AI技术类别。说到底,安康还是快乐,又有什么关系呢?最好的端午节解释,当然是闻一多先生说的那样:只要屈原的精神在就行了。

而在笔者这样的吃货看来,只要粽子是甜的就行了……

原文地址:http://blog.51cto.com/naojiti/2130344

时间: 2024-10-09 18:45:51

说“快乐”还是“安康”?如何在不抬杠的情况下用AI搞定这问题的相关文章

一年纯手工打造的Java老A上册开始预售了

Java老A这本书写了很久,昨天终于开始在china-pub上开始预售了,其它网站可能会慢一点,不过既然叫预售,就肯定还没到货. 有兴趣的人可以去看看哈(后续其它网站地址也会在这里公开): http://search.china-pub.com/s/?key1=java%cc%d8%d6%d6%b1%f8&type=&pz=1 关于本书内容,请参考:http://blog.csdn.net/xieyuooo/article/details/38373409 里面有本书的所有目录信息,封面等

Python 的经典入门书籍

实python非常适合初学者入门,上手很容易.我就是完全通过网上资源学了python的.最大的是3点经验:1.找一本浅显易懂,例程比较好的教程,从头到尾看下去.不要看很多本,专注于一本.把里面的例程都手打一遍,搞懂为什么.2.去找一个实际项目练手.我当时是因为要做一个网站,不得已要学python.这种条件下的效果比你平时学一门新语言要好很多.所以最好是要有真实的项目做.可以找几个同学一起做个网站之类.3.最好能找到一个已经会python的人.问他一点学习规划的建议,然后在遇到卡壳的地方找他指点.

vs2013在图像处理中的应用(7):开发Python扩展

快乐虾 http://blog.csdn.net/lights_joy/(QQ群:Visual EmbedLinux Tools 375515651) 欢迎转载,但请保留作者信息 很久没有摸图像处理的东西了,近期刚好需要有此需求,希望能够有一个比较好用的开发环境.在学校的时候做图像处理一直用的是matlab,不过现在正好在做VELT的开发,尝试用vs2013+python构造一个适合于自己用的开发环境. 在图像处理中,虽然已经可以用python操纵opencv完成一些算法,但总免不了需要自己写一

Linux实现的IEEE 802.q VLAN

本文转载自: http://blog.chinaunix.net/uid-20786208-id-4291059.html Technorati 标签: Linux VLAN   --------------------------我是快乐的分割线-------------------------------------------------- 第一部分:VLAN的核心概念 说起IEEE 802.1q,都知道是VLAN,说起VLAN,基本上也没有盲区,网络基础.然而说到配置,基本所有人都能顺口

程序员简历应该怎么写?

作者:ThoughtWorks中国链接:https://www.zhihu.com/question/25002833/answer/158108028来源:知乎著作权归作者所有.商业转载请联系作者获得授权,非商业转载请注明出处. 大家伙让一让,这个问题让老司机先答!作为一个潜入IT圈五年之久.看过数万份简历的HR,在这个问题上还是有点发言权的.HR在筛选简历时主要从公司需求出发,重点不一,不过还是有很多"通用"的套路,为了在30秒内判断出这份简历是否值得跟进,我认为程序员写简历的正确

《痛并快乐着》之申办奥运:我们只收获了失败吗?

1998年,在制作改革二十年的回顾节目时发现,在众多的资料中,有两件重大事件巧合地相逢在同一天,这让我们很多人感到惊奇. 1982年12月4日,在印度的新德里,中国体育代表团以61块金牌战胜日本,成为第九届亚运会金牌总数第一的国家,这是中国第一次在亚洲的赛场上扬眉吐气.消息传来,举国欢腾,长久渴望胜利的中国人,在体育健儿夺得的一个又一个冠军中,体验到了作为中国人的自豪,这种激动时至今日似乎都能回忆得起来. 而就在同一天,在北京的人民大会堂,第五届全国人民代表大会第五次会议上通过了一项决议,恢复<

做快乐的事

我的脑海里有许多的事情,有开心的事.伤心的事.感人的事.让人歧视的是,但可惜的是:这些事到部分都记不清楚啦.不过没关系,因为我有件事一直忘不了,那就是:而是与我的朋友玩的事.下面就让我为你们说吧. 那是我十岁夏天暑假发生的事.这天晚上我吃完啦饭,就去叫李航.王鹏,玩啦!我们来到啦王鹏家的树旁,来用沙子做火山,看谁做的最好最壮观. 我们各自从家里拿出啦:铲子.刨土用的工具.等,我们开始啦做火山的快乐比赛. 做啦大约一个小时,我们做完啦,我们都大呼小叫的说:"我做的好,我做的好,我做的好-"

给我快乐,毋宁给我孤独

孤独,一种纯净生活中的快乐.避开窗外的灯红酒绿,独自灯下焚香煮书,从心灵深处洋溢着的感悟缠绵于指尖,流淌出简朴的文字,清新自然地如草坪,绿树,红花:或沏一杯绿茶待叶如鲜花盛开般舒展后细瞥一口,沁人心脾:或让耳旁伴得乡村音乐轻妙漫扬,深入骨髓的音符,余音绕梁的韵律荡漾在整个房间:或摊开旧相片,看那个大眼睛,长辫子的女孩子的成长史中的情愫淀积.就想这样,一个人,静静地,轻轻地让思绪徜徉在一个狭小的空间,细品孤独,毫无芥蒂地让自己的思想漫天飞舞. 我喜欢罗丹的一句独到的见解:“艺术是孤独的产物,因为孤

【转载】如何成为一个高效、快乐、健康的程序员

只需每天做一些小改变,就可摆脱病痛.保持健康.....学会去积累工作经验和成果就会变得高效......具备这些小习惯就会保持快乐…… 一:高效 互联网发展日新月异,社会科技每天都在发生着翻天覆地的变化,而程序员已经成了这个时代的庞大群体,各种各样的程序员数不胜数,我们每天上下班,不 论你是坐公交还是乘地铁,在你的身边一定有程序员.本人我就是其中的一员,本人主修java语言,从事java类开发工作.由于本人工作时间不长,经验尚 浅,都是学着前辈高人的路子,在慢慢前行,下面我给大家分享下,如何从菜鸟