社会化推荐(一) 理论和实践 对科学的思考

所谓科学,就是用复杂的方法,解决一个简单的问题,然后说没人解决过或者我的方法更好,所谓实践,就是用简单的方法,解决一个复杂的问题,然后说,我达到了目标,你没我快。

写在前面的话

最近在研究社会化推荐的问题,想了很多,写了一些,有些想法,想和大家聊聊,也是怕忘记了,本文的目的有两个,首先就是讲讲我对社会化推荐的理解,然后就是讨论一下所谓科学。

在信息爆炸的时代,用户难以有效获取其感兴趣内容,在web1.0时代,搜索引擎的出现解决了信息的搜索问题,但其无法解决在web2.0时代以电子商务、社会化网络为代表的信息获取问题。搜索引擎的结果大都是同质化,以用户主动请求的方式提供信息服务,那么所得结果受限于用户的输入,用户的知识、经验成了信息搜索的关键因素,而用户不知道的将永远不知道。个性化推荐的出现使得问题有一定改进,首先,实现了主动信息推送服务,用户能接触到其不知道的信息,然后通过度量个性化用户的偏好,预测用户可能感兴趣的信息。而现有研究针对电子商务环境下的推荐如雨后春笋,主要的方法是基于内容、基于协同过滤以及基于社会网络。

理论上讲推荐能解决信息爆炸(信息过载)带来的信息无法有效获取的问题,能实现向用户推荐其感兴趣的内容,但遇到了两个问题:首先是数据的稀疏性的问题,在周奕辛(http://blog.sciencenet.cn/blog-636598-555655.html)的博文中提到“我们平时研究最多的MovieLens数据集的稀疏度是4.5%,Netflix是1.2%,这些其实都是非常密的数据了,Bibsonomy是0.35%,Delicious是0.046%。想想淘宝上号称有8亿商品,平均而言一个用户能浏览800件吗,我估计不能,所以稀疏度应该在百万分之一或以下的量级。数据非常稀疏,使得绝大部分基于关联分析的算法(譬如协同过滤)效果都不好。”然后是冷启动的问题,周奕辛(http://blog.sciencenet.cn/blog-636598-555658.html)中新用户因为罕有可以利用的行为信息,很难给出精确的推荐。反过来,新商品由于被选择次数很少,也难以找到合适的办法推荐给用户。从而,推荐系统的有效性无非是解决这两个问题,并且提高推荐精度。目前而言,通过从更高层次或更低层次,基于特征抽取、标签化等方式从被推荐对象从属性上、类别上、特征上进行刻画,为冷启动的问题提供了思路,其中本体的构建是有效的方法。

学术研究中,首先,大量学者提出多种推荐方法,以图寻找新的解决办法,如利用用户对属性的偏好,实现对没有评分的数据进行填充,从一定程度上解决了数据稀疏性的问题[1],但这是利用已有的数据对0数据进行填充,本质上是增加了用户评分的相关性,虽然实验验证处结果较好,但是无法规避评分数据之间的相关性问题,从一定程度上讲是利用相关性得到评分数据,然后利用推荐方法来预测这种相关性。如利用电影的流派信息,从类别视角上提出对新进入音乐进行刻画,通过对被推荐产品的形式化抽象解决了冷启动问题[2],这是以信息损失为代价,期待解决冷启动问题。如将用户、标签、产品之间的相关性转化为网络结构,尤其是在相关性测度比较简简单(如分为有相关和无相关的情况),构建三者的网络结构,通过网络结构度量相似性,实现推荐[3, 4]。然后从推荐的过程上看,主要的研究在于相似度计算的改进和评分方法的改进,这里就不再赘述。最后,实验的验证过程,一般的评价指标分为两种方法,利用MAE,证明所提出的方法预测性更强,二是利用准确率和召回率,证明所提出的方法推荐更好。从推荐的研究中,可以明确看到,学者通过更加细致的考虑,将推荐问题从内容、用户、网络等视角进行剖析,提出多种推荐方法,并且相对复杂,如利用遗传算法计算情境相似度以改进用户相似度度量[5],利用随机游走方法克服冷启动问题[6]等等,但这些方法在实际应用过程中的可行性却无法验证,尤其是在信息不断涌入,大部分方法没有考虑增量环境下的可用性必然使得推荐方法不具有鲁棒性,无法适用。

反观实践,通过笔者实际的网络浏览中观察,电子商务网站的推荐主要分为如下几种,首先登陆主页推荐,以亚马逊为例,根据浏览记录,向用户推荐和其最近浏览最相近的产品,从科研的角度看,这种方法利用最近的浏览代替全部浏览记录,实现向用户的推荐,但是无法保证最近的浏览记录能有效刻画用户的兴趣,有研究从时序分析角度出发,提出用户兴趣的变化特征,分析用户兴趣转移[7]以及用户兴趣随时间消散[1]。两种计算方法都相对复杂,如果把亚马逊假设为绝对理性(此假设应该合理),那么说明其使用方法在价值上高于学术中提出的方法,其中矛盾大概在于亚马逊是以价值为导向,而学术中是以效率为导向。其次,从产品页面中,再以亚马逊为例,根据既有销售记录,一般有两种策略,1.以捆绑推荐,比如购买电脑是推荐一下鼠标等配件,这和啤酒与尿布由异曲同工之妙;2.以其他用户购买概率推荐,向用户推荐浏览过页面中产品的其他用户的最后购买,但是没有给出有多少人没有买(这个无厘头了),通过其他人的最终购买决策来推荐;再次,微博中,当你的订阅不多的情况下,微博向你推荐用户,主要分为:潜在认识的(地理位置)、名人、会员等,内容推荐完全没有考虑相关性,事件推荐中,没有个性化因素,以热点事件作为推荐,一般说来分为全国热点事件以及地方热点事件,没有个性化因素。

总结一下吧,现有推荐方法的复杂性越来越多,而实际中的应用不多。和本文开头一致,科学就是把复杂的环境简化,然后用复杂的方法解决一个简单环境下的问题,要求效率;而实践是把复杂的方法简化,然后用简化的方法解决一个复杂环境下的问题,要求可行和价值。在推荐中,尤为明显。

文献:

[1].   朱国玮与周利,基于遗忘函数和领域最近邻的混合推荐研究. 管理科学学报, 2012. 15(5): 第55-64页.

[2].   Choi, S.M., S.K. Ko and Y.S.Han, A movie recommendation algorithm based on genre correlations. EXPERTSYSTEMS WITH APPLICATIONS, 2012. 39(9): p. 8079-8085.

[3].   Shang, M.S., et al.,Collaborative filtering with diffusion-based similarity on tripartite graphs.Physica A: Statistical Mechanics and its Applications, 2010. 389(6): p.1259-1264.

[4].   Xu, Y.H., et al., Combiningsocial network and semantic concept analysis for personalized academicresearcher recommendation. DECISION SUPPORT SYSTEMS, 2012. 54(1): p. 564-573.

[5].   Dao, T.H., S.R. Jeong and H.Ahn, A Novel Recommendation Model of Location-Based Advertising: Context-AwareCollaborative Filtering Using Ga Approach. Expert Systems with Applications,2012. 39(3): p. 3731-3739.

[6].   王丽莎,张绍武与林鸿飞, 基于项目和标签的随机游走个性化信息推荐模型. 情报学报, 2012. 31(3): 第289-296页.

[7].   蔡淑琴等,情境化推荐中基于超图模式的用户偏好漂移识别研究. 情报学报, 2011. 30(8): 第802-811页.

时间: 2024-10-28 22:17:37

社会化推荐(一) 理论和实践 对科学的思考的相关文章

我的“第一次”,就这样没了:DDD(领域驱动设计)理论结合实践

写在前面 插一句:本人超爱落网-<平凡的世界>这一期,分享给大家. 阅读目录: 关于DDD 前期分析 框架搭建 代码实现 开源-发布 后记 第一次听你,清风吹送,田野短笛:第一次看你,半弯新湖,鱼跃翠堤:第一次念你,燕飞巢冷,释怀记忆:第一次梦你,云翔海岛,轮渡迤逦:第一次认你,怨江别续,草桥知己:第一次怕你,命悬一线,遗憾禁忌:第一次悟你,千年菩提,生死一起. 人生有很多的第一次:小时候第一次牙牙学语.第一次学蹒跚学步...长大后第一次上课.第一次逃课.第一次骑自行车.第一次懂事.第一次和喜

雅虎刷题狂人曹鹏:10年理论与实践结合的程序员之路

曹鹏,2006年浙江大学计算机科学专业毕业,2013年中国科学院计算机技术研究所博士毕业.博士期间研究方向为社交网络与社会计算,曾经做过搜索.话题发现.社交网络方面.推荐算法等领域的相关研究. 曾为浙江大学.浙江省大学生程序设计竞赛的命题人,是hackerrank.com.hackerearth.com和csdn英雄会.CSDN高校编程挑战的命题人,也是PAT(Programming Ability Test, http://pat.zju.edu.cn/) 的命题人.是国内ZOJ(http:/

[翻译]《高级英汉翻译理论与实践》摘录

前言 最近尝试了给一个英语小视频做翻译,随后想了解更多翻译知识,就入手了一本书——叶子南教授的<高级英汉翻译理论与实践>.这虽然是本教材书,但是语言简洁直白,读起来像小说般流畅.书中多次强调以译入语为归依的译法.本文是阅读过程中的摘录. 了解翻译或者尝试翻译的最终目的仍然是希望能更好地理解科学技术原文.本人的焦点是技术领域,所以摘录的内容也是围绕着科学技术翻译相关. ============================================= 翻译的基本概念和问题 翻译的核心问题

MySQL优化核心理论与实践

背景描述:朋友单位OA系统前不久完成升级大改造,后端用的MySQL存储数据,上线跑了个把月,抱怨电话开始接二连三打来,不是这里打不开,就是那里无响应,有人比喻升级后变成老爷车,越来越慢,问题迫在眉睫,必须马上想对策呀.由于部署采用了规范文档,上线前也做了各种测试,于是乎,在线排查,未果,翻出实施文档,逐条阅读,未果,于是想起曾经一个业务系统,也碰到类似情况,后来通过各种优化得以缓解,遂有下文,<MySQL优化核心理论与实践>.说明:本文理论部分来源叶老师的博文,实践部分来源工作积累和众多热爱M

视频编解码的理论和实践2:Ffmpeg视频编解码

近几年,视频编解码技术在理论及应用方面都取得了重大的进展,越来越多的人想要了解编解码技术.因此,网易云信研发工程师为大家进行了归纳梳理,从理论及实践两个方面简单介绍视频编解码技术. 相关阅读推荐 <视频直播关键技术:流畅.拥塞和延时追赶> <视频直播技术详解:直播的推流调度> <音视频通话:小议音频处理与压缩技术> <视频编解码的理论和实践1:基础知识介绍>   1.Ffmpeg介绍 <视频编解码的理论和实践1:基础知识介绍>介绍了视频编码的基础

机器学习资料《分布式机器学习算法理论与实践》+《白话机器学习算法》+《Python机器学习基础教程》

机器学习正在迅速改变我们的世界.我们几乎每天都会读到机器学习如何改变日常的生活. 人工智能和大数据时代,解决最有挑战性问题的主流方案是分布式机器学习! <分布式机器学习:算法.理论与实践>电子书资料全面介绍分布式机器学习的现状,深入分析其中的核心技术问题,并且讨论该领域未来的发展方向. 我认为第3章到第8章是核心,讲解分布式机器学习的框架及其各个功能,分别针对其中的数据与模型划分模块.单机优化模块.通信模块.数据与模型聚合模块加以介绍.最有用的是第9章,学习由分布式机器学习框架中不同选项所组合

CV学习资料《卷积神经网络与视觉计算》+《深度学习实践计算机视觉》+《视觉SLAM十四讲从理论到实践》电子资料代码分析

视觉和图形学真是一家,基础都一样! 如果学习图像识别,计算机视觉,推荐电子书<视觉SLAM十四讲:从理论到实践>,系统介绍了视觉SLAM(同时定位与地图构建)所需的基本知识与核心算法,既包括数学理论基础,如三维空间的刚体运动.非线性优化,又包括计算机视觉的算法实现,例如多视图几何.回环检测等. 一个周读完了,代码很清晰!Particle Filtering,KF,EKF, Batch Optimization, Lie Group,ICP,LK光流... 尤其惊喜的是文末作者看好的IMU-SL

理论与实践的碰撞,个人与团队的融合

我在尚学堂度过了四个月的辛苦时光,虽说时间很短很辛苦,但在这里的每一天都使我收获很大.受益匪浅.这段时间不但极大地加深了我对一些理论知识的理解,使我在理论上对Java有了全新的认识,而且在实践能力上也有了很大的提升,尚学堂果然不负它所承诺的实战化的教学理念. 我把这四个月的实训看作是"理论与实践相结合的桥梁".通过实训和学习,我对java有了更深一步的认识,也清楚了自己的不足.正所谓"百闻不如一见",经过这次自身的切身实践,我才深切地理会到了"投身实践&q

Java 理论与实践: 流行的原子

Java 理论与实践: 流行的原子 新原子类是 java.util.concurrent 的隐藏精华 在 JDK 5.0 之前,如果不使用本机代码,就不能用 Java 语言编写无等待.无锁定的算法.在 java.util.concurrent 中添加原子变量类之后,这种情况发生了变化.请跟随并行专家 Brian Goetz 一起,了解这些新类如何使用 Java 语言开发高度可伸缩的无阻塞算法.您可以在本文的 论坛中与作者或其他读者共享您对本文的看法.(也可以通过单击文章顶部或者底部的 讨论链接来