所谓科学,就是用复杂的方法,解决一个简单的问题,然后说没人解决过或者我的方法更好,所谓实践,就是用简单的方法,解决一个复杂的问题,然后说,我达到了目标,你没我快。
写在前面的话
最近在研究社会化推荐的问题,想了很多,写了一些,有些想法,想和大家聊聊,也是怕忘记了,本文的目的有两个,首先就是讲讲我对社会化推荐的理解,然后就是讨论一下所谓科学。
在信息爆炸的时代,用户难以有效获取其感兴趣内容,在web1.0时代,搜索引擎的出现解决了信息的搜索问题,但其无法解决在web2.0时代以电子商务、社会化网络为代表的信息获取问题。搜索引擎的结果大都是同质化,以用户主动请求的方式提供信息服务,那么所得结果受限于用户的输入,用户的知识、经验成了信息搜索的关键因素,而用户不知道的将永远不知道。个性化推荐的出现使得问题有一定改进,首先,实现了主动信息推送服务,用户能接触到其不知道的信息,然后通过度量个性化用户的偏好,预测用户可能感兴趣的信息。而现有研究针对电子商务环境下的推荐如雨后春笋,主要的方法是基于内容、基于协同过滤以及基于社会网络。
理论上讲推荐能解决信息爆炸(信息过载)带来的信息无法有效获取的问题,能实现向用户推荐其感兴趣的内容,但遇到了两个问题:首先是数据的稀疏性的问题,在周奕辛(http://blog.sciencenet.cn/blog-636598-555655.html)的博文中提到“我们平时研究最多的MovieLens数据集的稀疏度是4.5%,Netflix是1.2%,这些其实都是非常密的数据了,Bibsonomy是0.35%,Delicious是0.046%。想想淘宝上号称有8亿商品,平均而言一个用户能浏览800件吗,我估计不能,所以稀疏度应该在百万分之一或以下的量级。数据非常稀疏,使得绝大部分基于关联分析的算法(譬如协同过滤)效果都不好。”然后是冷启动的问题,周奕辛(http://blog.sciencenet.cn/blog-636598-555658.html)中新用户因为罕有可以利用的行为信息,很难给出精确的推荐。反过来,新商品由于被选择次数很少,也难以找到合适的办法推荐给用户。从而,推荐系统的有效性无非是解决这两个问题,并且提高推荐精度。目前而言,通过从更高层次或更低层次,基于特征抽取、标签化等方式从被推荐对象从属性上、类别上、特征上进行刻画,为冷启动的问题提供了思路,其中本体的构建是有效的方法。
学术研究中,首先,大量学者提出多种推荐方法,以图寻找新的解决办法,如利用用户对属性的偏好,实现对没有评分的数据进行填充,从一定程度上解决了数据稀疏性的问题[1],但这是利用已有的数据对0数据进行填充,本质上是增加了用户评分的相关性,虽然实验验证处结果较好,但是无法规避评分数据之间的相关性问题,从一定程度上讲是利用相关性得到评分数据,然后利用推荐方法来预测这种相关性。如利用电影的流派信息,从类别视角上提出对新进入音乐进行刻画,通过对被推荐产品的形式化抽象解决了冷启动问题[2],这是以信息损失为代价,期待解决冷启动问题。如将用户、标签、产品之间的相关性转化为网络结构,尤其是在相关性测度比较简简单(如分为有相关和无相关的情况),构建三者的网络结构,通过网络结构度量相似性,实现推荐[3, 4]。然后从推荐的过程上看,主要的研究在于相似度计算的改进和评分方法的改进,这里就不再赘述。最后,实验的验证过程,一般的评价指标分为两种方法,利用MAE,证明所提出的方法预测性更强,二是利用准确率和召回率,证明所提出的方法推荐更好。从推荐的研究中,可以明确看到,学者通过更加细致的考虑,将推荐问题从内容、用户、网络等视角进行剖析,提出多种推荐方法,并且相对复杂,如利用遗传算法计算情境相似度以改进用户相似度度量[5],利用随机游走方法克服冷启动问题[6]等等,但这些方法在实际应用过程中的可行性却无法验证,尤其是在信息不断涌入,大部分方法没有考虑增量环境下的可用性必然使得推荐方法不具有鲁棒性,无法适用。
反观实践,通过笔者实际的网络浏览中观察,电子商务网站的推荐主要分为如下几种,首先登陆主页推荐,以亚马逊为例,根据浏览记录,向用户推荐和其最近浏览最相近的产品,从科研的角度看,这种方法利用最近的浏览代替全部浏览记录,实现向用户的推荐,但是无法保证最近的浏览记录能有效刻画用户的兴趣,有研究从时序分析角度出发,提出用户兴趣的变化特征,分析用户兴趣转移[7]以及用户兴趣随时间消散[1]。两种计算方法都相对复杂,如果把亚马逊假设为绝对理性(此假设应该合理),那么说明其使用方法在价值上高于学术中提出的方法,其中矛盾大概在于亚马逊是以价值为导向,而学术中是以效率为导向。其次,从产品页面中,再以亚马逊为例,根据既有销售记录,一般有两种策略,1.以捆绑推荐,比如购买电脑是推荐一下鼠标等配件,这和啤酒与尿布由异曲同工之妙;2.以其他用户购买概率推荐,向用户推荐浏览过页面中产品的其他用户的最后购买,但是没有给出有多少人没有买(这个无厘头了),通过其他人的最终购买决策来推荐;再次,微博中,当你的订阅不多的情况下,微博向你推荐用户,主要分为:潜在认识的(地理位置)、名人、会员等,内容推荐完全没有考虑相关性,事件推荐中,没有个性化因素,以热点事件作为推荐,一般说来分为全国热点事件以及地方热点事件,没有个性化因素。
总结一下吧,现有推荐方法的复杂性越来越多,而实际中的应用不多。和本文开头一致,科学就是把复杂的环境简化,然后用复杂的方法解决一个简单环境下的问题,要求效率;而实践是把复杂的方法简化,然后用简化的方法解决一个复杂环境下的问题,要求可行和价值。在推荐中,尤为明显。
文献:
[1]. 朱国玮与周利,基于遗忘函数和领域最近邻的混合推荐研究. 管理科学学报, 2012. 15(5): 第55-64页.
[2]. Choi, S.M., S.K. Ko and Y.S.Han, A movie recommendation algorithm based on genre correlations. EXPERTSYSTEMS WITH APPLICATIONS, 2012. 39(9): p. 8079-8085.
[3]. Shang, M.S., et al.,Collaborative filtering with diffusion-based similarity on tripartite graphs.Physica A: Statistical Mechanics and its Applications, 2010. 389(6): p.1259-1264.
[4]. Xu, Y.H., et al., Combiningsocial network and semantic concept analysis for personalized academicresearcher recommendation. DECISION SUPPORT SYSTEMS, 2012. 54(1): p. 564-573.
[5]. Dao, T.H., S.R. Jeong and H.Ahn, A Novel Recommendation Model of Location-Based Advertising: Context-AwareCollaborative Filtering Using Ga Approach. Expert Systems with Applications,2012. 39(3): p. 3731-3739.
[6]. 王丽莎,张绍武与林鸿飞, 基于项目和标签的随机游走个性化信息推荐模型. 情报学报, 2012. 31(3): 第289-296页.
[7]. 蔡淑琴等,情境化推荐中基于超图模式的用户偏好漂移识别研究. 情报学报, 2011. 30(8): 第802-811页.