最近和很多人探讨、交流推荐系统相关很多事情,喜欢这种理性探讨,这种探讨能够让双方都有收获,一个是负
反馈再有就是对于推荐系统怎样做深入,再有就是推荐系统架构一点思索。
负反馈最近探讨很多一个问题。一直有疑惑,大部分的内容都是关于movielens这种含有客户负反馈的,但是我
只是一个普通的电商网站,只有客户的购买浏览等记录,却缺乏客户不喜欢物品的负反馈,即使是我使用itemcf,也
只能是单类协同过滤,效果不是很好,查了一些paper,除了使用其他的结合内容,上下文等之外,就只有采样了,
但是我所在的行业,就算客户没买,也不一定是不喜欢,只是可能不知道而已,想探讨一下,是否了解这种隐反馈的场
景实际应用中还有没有其他的处理方法呢?
这是一个好问题,一个有意思问题,也是我们探讨了很多次问题。负反馈其实我们可以思考一下,不买就是不喜
欢或者说没推准?那推出来不点击不浏览呢?应是不能作为负反馈的,因为一个用户不点击、不购买因素太多了,钱
不够?人委屈(对这个素材不满意而已,把品类都降权太极端)了可能都不会去点击。
再有就是现在淘宝京东等app对于素材都有负反馈收集,但其实了解到负反馈人很少,因为用户没义务去点击那
个,他也不愿意去反馈。其实很多用户是不满意就直接走了,不会提意见的,这是实际数据反馈情况。
那负反馈要不要做,做是当然要做但要小心做,因为其实很多用户在频道内行为是很有限的,分类召回级直接卡
掉,点击、浏览、GMV转化等指标应该一下就会降一大截。
现在推荐系统,两个方面一个是用户持久喜好,作为离线偏好,这种负反馈尽量不要做。另外是用户实时篇好,
因为很多情况下用户看到喜欢内容、商品会点击两下看看,真喜欢可能就购买了。实时用户篇好目前是很重要用户推
荐构成部分,能抓取就抓用户了,抓不住就走了。对于实时篇好可以根据给用户推荐内容、商品都未点击,可以做降
权处理,不是过滤,过滤要慎重,用户点击多了还要加权,抓住用户实时兴趣,引导用户多浏览、多看。
我所在的行业,但是由于某一类目的商品选择较少,导致这一类型各个商品和其他类型的各种商品的相似度都较高,
导致不管其他什么商品都会很容易推荐这一类目的热门商品,请问您有遇到过这种情况嘛?一般工程上会怎样解决这种
问题呢?
关于推荐系统的热门商品权重过大的问题,除了上面的规则干预,还有没其他的模型计算方法呢?我用的是项亮
书中的在itemcf时变了分母的幂次,但效果不好,您还知道工程中有其他合适的算法嘛?
热门商品是个好东西,但不受控制总是推出热门商品不是一个好的做法,热门商品作为一个单独热门召回级,热
门商品被关联数量一定要控制,设置相关策略阀值。
对于热门商品做热度算法处理,就是热门内容、商品作为召回级,给予阶梯式曝光,如果热门能很大程度提升整
体转化指标,那么可以给相应加权如做不到进行相应降权。
热门商品召回级还有一个很大用处,目前看在一个频道很多用户是行为很少的,热门作为拉新很重要一个手段,
因为热门某种意义就是命中了大多数人喜好。是作为召回级不够用户很重要一个数据补充渠道,用好还是相当重要。
最近探讨另外一个重要点,推荐系统如何做深入,毕竟越深越美,如果有了粗力度召回级,那么就是做细粒度召
回级。就像文章,最开始做主题LDA分类,但这种分类很粗,加进相似文章召回,数据猛的一升。后来又做了细粒度
标签比主题细分很多一种划分主题方式,这种就要结合LDA将力度又不要划分太细,不然会发现用户点击两下全是同
一个内容。
内容细的标签,沉下心来仔细想想,很像搜索引擎,用户点击某个标签,然后返回标签下内容。如果把标签理解
为搜索引擎搜索词,这就是极其类似召回数据方式。很多事情都是相通的,要静下心来去探索、去发现。
商品最近也是在探索细粒度召回级事情,以前做的更多是品类,品类作为召回级核心,后边会更多探索用户对于
品牌、性别、价格段、季节、地理位置、手机信息等多个更细粒度召回级探索。补充完善粗召回级之外内容,预估对
转化数据都是会有提升的。
再有就是也在对于商品标签不断完善,是另外一个方向对于召回级扩大以及更加细分,让用户行为能更精准进行
推荐。品牌、价格段、性别、商品标签都是对于商品分类召回细化,仔细想想很像是对于内容由主题到标签,粗粒度
细粒度结合。
这些新的尝试对于线上推荐服务、推荐引擎也是一个新的挑战,需要花费心思去将架构抽象化合理化。其实做事
情难易程度,不在于外界,在于你对于自己要求,要求高了,难度自然就大了。
最近在看Google对于分布式系统设计方面内容,收获很多,对于复杂系统给出最简洁设计,是Google设计分布式
系统很重要设计理念,求于至简,归于永恒。简洁其实是很难很复杂要求很高设计,因为所有事情都考虑到,才能做到
至简,至繁归于至简。
扫码关注公众号