智能评论排序

我们在网上购物或者逛一些论坛、社区时往往都会发现购物时会参考其他用户是如何评价这个商品的。逛社区,如知乎之类时我们看一些东西往往只会看排在前几个的答案,而基本会忽略掉后面众多的答案。除非你是瞎混时间,如玩豆瓣,一层层楼扒,不落下任何词句。

然而,很多购物网站、社区各自评论排列是不一样的规则,有的仅仅按照评论、答案更新时间排序,或者因为各自规则不同而导致我们会错过一些对我们决策的有用信息。就拿购物来说,可能最终会影响到我们是否下单,下单转化率降低,用户体验不佳。

那么,我们可以如何让有效的,优秀的评论or答案尽量不被隐藏or淹没在海量信息中呢?

主体思路主要是:如何把有价值的信息(好的或不好的)推到用户最容易获取的地方,将对用户没有价值或用户不感兴趣的信息尽量放在底层。

最近忽然很火的今日头条为什么会火?大的道理不说,大致也是因为他们做到了以上那点。

前面给分析了基本方向,接下来讲讲评论这块影响排序的因素主要有哪些。

目前想到的影响排序因素

1.内容相关性

评论与主题相关才有意义。你如果卖手机,人家评论内容给你贴大段小说内容,尽管是五星好评,这样的内容对用户参考价值会很大吗?

2.评论长短

内容与主题相关后,写的越长的一般会认为越倾向于优质。但其实大家知道并非必然联系。但这块却只能这么操作。经常性有的商家为了鼓励用户做长评而奖励,如聚美的优质评价送代金券就有类似的赶脚。

3.评论时间

你14年6月份来买东西肯定不希望看到要买的这个东西最新的一条评论是12年留下的吧?评论时间越靠近用户购物决策时间,用户越信任该评论。

4.优质评论/置顶评论

一般是管理人员来操作,类似于豆瓣小组的置顶话题、当当网的加精评论等等。

5.评论回复数

越多回复表示用户越感兴趣,根据用户回复情况我们也可以据此判断该评论的真实性。有趣的一个问题,之前购买手机看到一款好评,而且是排前1-2个位置的,用户购机才不到一个月,但是评论里居然写体验了2个月了。底下引起其他看评论的人围观,说是该品牌请了马甲。但对于类似有可能掺水的评论机器很难实现判别。

6.用户被like/dislike的数量,有的地方叫顶/有用

该数量体现了用户对该评论or答案的满意程度。有的网站就是以该规则为第一条,被顶越多则排在第一位置。例如后文将提到的reddit、知乎好像这块也类似。

7.评论星级

一般星级越高代表对该产品的购买体验越好。

从总体来看,第一条应该是最重要的一点,抛开第一点后其他的点即使有也不是太有意义。

以下,简单分析几个网站评论排序:

1.京东评论排序分析

简单研究了下,大概思路应该是有个评论推荐机制来执行:
主要是相关性/评论星级/评论长短/标签数/晒图数/评论下互动数/评论时间/有用数
这些点各自安排不同权重来打分,有管理员来不定期调整权重来影响这些评论排名的。机器通过评论下互动数以及有用数对评论真实性可以进行推算。

有个问题是:如何智能处理文不对题的评论?例如,有的用户明明购买了手机,其他都正常唯独评论里的内容是牛头不对马嘴,这类型的问题如果频发,机器如何处理?

另外,标签这块,对京东这块进行了一些猜测:应该是对某类型的产品都统一用一套标签数据库的,在产品推出后则配备基本标签?那这些标签是用什么机制配备的?能否有一种算法来实现不需用户自己选择标签,机器能够实现直接从用户发表的评论自动提取对应的标签?想了下,应该是可以将用户评论进行词汇拆解,然后做机器处理,但具体如何实现估计挺有技术难度!

最后,关于评论下互动数,有的评论互动很长,但是京东这块都展示了,有些影响用户体验,个人感觉如果能加上收起按钮,语序用户收起互动评论体验起来会更好。

 

2.Reddit评论排序分析

“Best”排序(之前有Top/Hot/New/Controversial/Old)

大概思路是,有人对评论like,则数据库会进行采集,评论越多,like的越多,则机器越能精确判定该评论的排名。通过对精确程度的量化,从用户的like中尽可能推算出评论真实质量。机器从like与dislike数据库中抽样统计,计算出置信区间,我们第一步对这些区间进行排名,这个暂时排名比较的是这些评论最终排名100在一百次统计中95次可能落在的区间。对于抽样数据需要在数量上有保证,不然系统仍然会将其排在低位。10like+1dislike
are better than 50like+25dislike.
前者会排在后者前面,通过概率计算结果来推算。即使后面证明这块有误差,但随着数据库收集的like与dislike样本变更,新抽样数据也会纠错。最终,优秀评论会得到置顶高位,欠佳评论只在底部。

问题是:拥有很多like or
dislike的偏向于会吸引更多同类投票,仍然会有偏袒的效应存在,但比起光以时间优先排列,抢沙发、板凳来说还是优化了很多。

关于案例分析,以后会陆续补充淘宝、亚马逊的评论排序分析。

总结

1.可能有很多人会觉得这些因素我们都知道了,那如何安排权重呢?我觉得这块还是得看数据说话,比如小样本测试orA/B测试。

概念普及下:

小样本测试,举例来说,比如每个用户有user
id,我们取能够整除5的用户来体验新设定的规则,然后根据他们体验的最终数据来对比没有变更规则的用户数据,据此来判定新规则是否有效。

A/B测试,制作A/B两套不同的权重安排规则,随机推荐给用户使用,最终来对比2套方案出来的用户数据,根据数据来最终判定哪组效果更好则选定哪组。

采用以上方法效果分析维度主要是几个因素:pv增长率、点击购买率、转化率、用户体验等等。

2.内容相关性这块主要有2种方向,一种是将用户评论分词,将句子拆分成名词、动词、形容词等等,然后计算该评论与该商品简介、其他用户评论等词汇相关性。这块还需要结合其他用户对该评价的评论等动作来综合识别是否评论靠谱。这种比较局限性,容易忽略掉用词方面比较个性化的优质评论。另一种是是将文档转换为特征向量后,就可以计算文档之间或者是查询和文档之间的相似性了。

3.评论排序规则一旦变更对商家来说影响很大,作为商家需要保证自己是商品订单量提升需要时刻保持关注这点,这也是为什么有的淘宝商家找水军买假好评的原因了。

ANY REPLY WILL BE HIGHLY APPRECIATED。

智能评论排序,布布扣,bubuko.com

时间: 2024-10-15 19:36:48

智能评论排序的相关文章

评论列表显示及排序,个人中心显示

显示所有评论{% for foo in ques.comments %} <ul class="list"> {% for foo in ques.comments %} <li class="post_item"> <a href="{{ url_for('usercenter',user_id=foo.author.id) }}" class="light">{{foo.author.u

一堆乱七八糟绝不正经的排序算法

原文 索引 猴子排序 钻石排序(戴蒙德排序) 恶魔排序 珠排序 地精排序(怂货排序) 智能设计排序 1. 猴子排序 (提供者cy1306110516) 猴子排序的思想源自于著名的无限猴子定理. 既然猴子们能敲出<哈姆雷特>,区区排序又算什么呢? 思路: 判断数组是否有序,如果无序,进入下一步. 随机打乱数组,回到上一步. 适用人群: 欧皇 时间复杂度: 最坏情况O(∞) 最好情况O(n) 算法实现: 1 #include <bits/stdc++.h> 2 using namesp

一款超好用的第三方评论插件--Gittalk

使用GITALK的背景: 1. 最近在做一个基于Java的个人博客系统,已经基本完工了,突然发现怎么没有评论的操作,如果再从头开始从数据库开始写的话,花费的代价有点大,于是乎我就在网上寻找一款适合我的第三方评论插件,第一次我找到了"畅言",结果很令人失望,因为我的网站没有备案,所以无法使用"畅言".于是Gitalk就映入了我的眼帘. 2. Gitalk 最初推出来,应该是想配合在 github 上建博客,方便添加评论功能的.随着其他评论插件的没落,Gitalk 就火

Probabilistic Programming and Bayesian Methods for Hackers读书笔记

本文为<Probabilistic Programming and Bayesian Methods for Hackers>读书笔记,网页链接为https://github.com/CamDavidsonPilon/Probabilistic-Programming-and-Bayesian-Methods-for-Hackers 由于csdn无法编辑公式,以及上传图片麻烦,所以直接上传word 目录 第1章  贝叶斯方法原则及概率编程初步...3 1.1 贝叶斯推断的哲学意义...3 1.

新闻APP后端系统架构成长之路

前言:一年来从接受APP后端工作到现在可谓一路艰辛,中间踏过无数坑坑洼洼,也从中学到很多很多,之前领导也多次提醒,平时多总结.把经验形成系统,但平时大部分时间一直在忙于开发.处理问题,天天马不停蹄的往前走.眼看着春节将至,16年又过去了,业务有了很大发展,我们系统也愈加完善.之前一直也没有时间静下心来后头看看,眼下随着6.0版本开发上线完毕,稍得片刻喘息,自己也想想,也是时候回头看看.总结一下了. 1,初入圣地 2,筑基:完全重构 3,金丹:踩坑..而且是踩大坑 4,元婴:面临挑战,流量来袭 5

程序员2014精华本

<程序员2014精华本>基本信息作者: 程序员编辑部 出版社:电子工业出版社ISBN:9787121254710上架时间:2015-2-7出版日期:2015 年2月开本:16开页码:458版次:1-1   内容简介<程序员 2014 精华本>紧紧围绕大数据.电商架构.智能硬件.移动开发.团队管理等热门话题,进行了全面而深入的解读.于原有栏目和本年度热点,<程序员 2014 精华本>的结构分为以下七个篇章.专题篇:综合了 2014 年 1-12 月封面报道,内容包括双 1

创建优雅表格的8个js工具

当需要呈现数百个表的数据时,展示和可访问性扮演着至关重要的角色.在这种情况下,倘若一个数据网格能够支持大量数据集的HTML Table并提供诸如排序.搜索.过滤和分页等功能,那是棒棒哒.在这篇文章中,将介绍8个用于创建优雅表格的js工具. SigmaGrid SigmaGrid是一个开源的Ajax数据表格组件,可以在一个可滚动和可排序的表格中展示和编辑数据. Ingrid Ingrid是一个低调的JQuery组件,支持数据网格添加行为(列调整.分页.排序和设置列.行的样式等等). TableKi

大二下暑假一带一路项目组热度趋势算法安排

7月4日 和楠铠,岚韬讨论热度趋势算法(17号交算法).算法内容如下: (1)热度趋势(热度值)分报社(40%)和社交媒体(60%)两方面计算. 其中,报社的热度值是根据报社权威度*新闻发布数量计算得出,社交媒体的热度值是根据使用话题动态*点赞量*权值+评论量*评论点赞量*权值计算得出. 报道量分析(报社方面) 关注量分析 (社交媒体方面) (2)国民评论排序(评论时间(权值最重)+关注人数+点赞量)

从零开始,搭建博客系统MVC5+EF6搭建框架(5),博客详情页、留言、轮播图管理、右侧统计博文

一.博客系统进度回顾 上一遍博客介绍到,系统已经实现到了发布以及前台布局展示,接下来就是实现一些,详情页,留言.轮播图管理.右侧博文统计信息实现. 二.博客系统详情页实现 2.1先来看看详情页展示的效果 2.2实现控制器在前台控制器中创建一个Blog的控制器,主要是展示博客分类以及详情页 Action详情页实现: 1 /// <summary> 2 /// 详情页 3 /// </summary> 4 /// <param name="id"><