关于Jaccard相似度在竞品分析中的一点思考

  上个月对一个小项目的效果进行改进,时间紧,只有不到一周的时间,所以思考了一下就用了最简单的方法来做,效果针对上一版提升了5%左右,跟大家分享一下(项目场景用的类似的场景)

  项目场景:分析一个产品的竞品,譬如app的竞品、网站的竞品等等

  项目分析:简单来说就是竞品分析,竞品分析有很多比较成熟的方法,但是我认为,竞品分析其实和推荐有着很大的相关性。譬如我要分析一个技术网站的竞品有哪些,通俗点说,就是看一个用户经常访问哪些网站、不同类的用户访问网站的偏好是什么、在同类技术网站里与之定位想进,用户人群相似的网站有哪些等等。抽象来看,即可得出两个关键词:用户和物品(或者说物品和竞品)。这个关键词是不是很熟悉?在推荐里我们经常会遇到item和user之间的相似度,那么竞品分析其实也可以同类化于相似度的计算问题。

  具体做法:提到相似度计算,会想到很多方法,常见的欧几里得距离,余弦计算,皮尔逊距离等等,对于不同的距离计算,有不同的适用条件,之前总结过一个关于相似度计算的文章,只不过觉得不是很完善,所以一直没有发出来。这次做竞品分析的时候突然想起了Jaccard相似度。那么Jaccard相似度是什么呢?简单说下公式:

  给定两个集合A和B,A和B的Jaccard相似度 = |A与B的交集元素个数| / |A与B的并集元素个数|

  那么这样一个公式是来应用到竞品分析中的呢?我们假设一个场景:

  喜欢博客园的用户也喜欢浏览知乎、CSDN、Github等,喜欢知乎的用户也喜欢浏览Github、InfoQ、V2EX、SegmentDefault、博客园等,假设我们根据浏览次数来进行排序,得到两个集合,那么我们可以简化为博客园和知乎的竞品分别为:

  博客园=[知乎、CSDN、Github]

  知乎=[Github、InfoQ、V2EX、SegmentDefault、博客园]

  此时,第一版计算结果:博客园与知乎的Jaccard相似度为= 1 / 7=0.14

  这是最简单的Jaccard相似度计算,然而我们发现,逛博客园的经常逛知乎,且知乎权重很高,但是他们俩的相似度却很低,只有0.14,看起来好像并不符合常理,于是,我做了点修改,将需要计算的竞品本身也加入集合,即:

  博客园=[博客园、知乎、CSDN、Github]

  知乎=[知乎、Github、InfoQ、V2EX、SegmentDefault、博客园]

  这样我们再来计算,得到第二版计算结果:博客园与知乎的Jaccard相似度 = 3 / 7 = 0.42

  为什么我们要将竞品本身考虑进去呢?其实很简单,以博客园为例,我们的目的是找到博客园的竞品,分析出经常浏览博客园的用户还会经常浏览哪些同类技术网站,那么博客园的用户肯定是经常浏览博客园的,这点显而易见,一个物品本身也是自身的竞品。将要分析的竞品本身加入集合后就可避免我们第一次计算时出现的不符合常识的结果。

  但是,还得思考一个问题,博客园对知乎的Jaccard相似度与知乎对博客园的Jaccard相似度应该是一样的吗?按照前两次计算,我们认为是一样的,因为只是考虑的交集的个数,并没有考虑集合中元素所处的位置因素。然而实际上,集合中的元素位置其实是有先后之分的,按降序排列,即竞品相关度是越来越低的。此时未考虑元素的位置因素似乎也有悖尝试。举个例子:一个经常看博客园的用户,也会经常看知乎,那么一个经常看知乎的用户是否也代表也会经常看博客园呢?这个结论与我们给出的条件是相悖的:一个经常看知乎的用户,相比于博客园,更偏好于Github。所以我们得到结论:两个竞品A和B,A对B的重要性不一定等于B对A的重要性。

  所以,我们对此进行进一步改进,

  博客园=[博客园、知乎、CSDN、Github]            ====》博客园 = [1.0,0.6,0.3,0.1]

  知乎=[知乎、Github、InfoQ、V2EX、SegmentDefault、博客园]  ====》知乎 = [1.0,0.55,0.15,0.14,0.11,0.05]

  (注:竞品本身加入集合我设定权重为1,其他竞品元素总分为1)

  此时,计算得到第三版计算结果:

      博客园对知乎的Jaccard相似度 = ( 两者交集的权重得分和/ 两者权重总和 ) * 知乎在博客园集合中所占的权重 = ( 1+0.6+0.1+1+0.55+0.05 / (2+2) )* 0.6 = ( 3.3 /4 )* 0.6 = 0.495

      知乎对博客园的Jaccard相似度 =  ( 两者交集的权重得分和/ 两者权重总和 ) * 博客园在知乎集合中所占的权重 =( 1+0.6+0.1+1+0.55+0.05 / (2+2) )* 0.05 = ( 3.3 /4 )*0.05 = 0.04

  由此可得,博客园与知乎的竞品相似度是不相同的,也符合常理

  总结:一开始我想到了很多方法来做,但是时间紧,又要有效果提升,所以尝试对最简单的计算公式做改进达到提升效果的目的,针对每一次计算的结果,结合常识,再来进行一步步改进,最后取得了不错的效果。其实最后的方案还可以做一些改进,如:如何设定权重,如何设定计算公式、是否可以用线性模型拟合等等,都可以去尝试,有兴趣的也可以去试一试。如果大家有更好的方法,也可以一起讨论一下:)

  

时间: 2024-10-12 22:37:04

关于Jaccard相似度在竞品分析中的一点思考的相关文章

产品经理做竞品分析的思路(二)

本文转自知乎作者:大禹 ,写的很实在,不虚,也没有点到为止的感觉,基本上都抖出来了. 1.竞品分析的目的(和上篇一样,先想目的): 什么是竞品分析:按字面意思就是“对竞争对手产品的分析”.但不同职位做竞品分析的目的,角度和方法都不相同.产品经理进行竞品分析目的:了解市场,看清市场的发展趋势,找准市场切入点:了解对手,他山之石可以攻玉,同时发现潜在的竞争对手:了解需求,把握需求对应的功能点和界面结构,并侧面了解用户习惯. 详细的竞品分析思路(汇报的时候反着来):1.竞品分级 2.竞品基础结构分析2

爱奇艺、优酷、腾讯视频竞品分析报告2016(一)

1 背景 1.1 行业背景 1.1.1 移动端网民规模过半,使用时长份额超PC端 2016年1月22日,中国互联网络信息中心 (CNNIC)发布第37次<中国互联网络发展状况统计报告>,报告显示,网民的上网设备正在向手机端集中,手机成为拉动网民规模增长的主要因素.截至2015年12月,我国手机网民规模达6.20亿,有90.1%的网民通过手机上网. 图 1  2013Q1~2015Q3在线视频移动端和PC端有效使用时长份额对比 根据艾瑞网民行为监测系统iUserTracker及mUserTrac

中华英才网竞品分析报告2016

中华英才网竞品分析报告 1 背景 1.1 行业背景 1) 网民增速不断提升,移动端网民规模过半. 2016年1月22日,中国互联网络信息中心 (CNNIC)发布第37次<中国互联网络发展状况统计报告>.截至2015年12月,中国网民规模达6.88亿, 半数中国人已接入互联网. 其中,2015年新增网民3951万人,增长率为6.1%,较2014年提升1.1个百分点,网民规模增速有所提升. 图 1  2011-2018年中国整体网民数量及增长趋势 <报告>同时显示,网民的上网设备正在向

爱奇艺视频与腾讯视频竞品分析

随着视频直播业的火爆,市场上视频直播的APP也层出不穷,这些APP主拼的内容和资源,更需进一步推动用户付费习惯的养成.从用户关注因素出发,以用户体验的多方面的校对市场上热门视频直播类APP进行对比分析,针对痛点问题提出建议. 根据艾媒咨询数据显示,2015年中国移动视频用户规模达到4.31亿;预计到2018年,中国移动视频用户规模将达到6.95亿.在如此规模庞大的市场面前,视频产品作为内容导向的产品,更应避免同质化,注重打造差异化优势,从移动端用户特性出发,提高内容质量,优化各项服务,提升用户感

爱奇艺、优酷、腾讯视频竞品分析报告2016(二)

接上一篇<爱奇艺.优酷.腾讯视频竞品分析报告2016(一)> http://milkyqueen520.blog.51cto.com/11233158/1760192 2.4 产品设计与交互 2.4.1  视觉风格 APP设计风格从视觉效果上至少给用户传达了两个信息:一是APP的整体基调.二是APP的目标人群. 在设计风格表现上,颜色占据了80%以上的视觉体验.因此要做好设计风格,主要做好界面的颜色搭配和分布.另外颜色是有情感的,不同的色彩能给于用户不同的印象和感受,而且不同的人群对颜色偏好也

为什么做竞品分析,竞品分析怎么做?

大多数产品经理实际工作中很少会做产品的竞品分析工作,其中一般由市场和运营人员代劳,或者是产品部门配备市场研究相关岗位定期来做.而随着市场竞争的激烈程度与日俱增,也要求产品经理参与到甚至是主导竞品分析工作.对于既不是专才和通才的产品经理来说也是一种全新历练和学习.竞品分析结果只能作为一种参考依据,之所以称之为依据,是因为竞品分析的过程过多的具有主观性,这在很大程度上直接影响了分析结果.通常服务于领导及产品管理层对产品信息动态能够有意识的去关注及时调整相关目标; 为什么要做竞品分析? 随时了解竞争对

游戏直播平台竞品分析(必看干货)

以下是我朋友JJ(张俊杰)原创文章 游戏直播平台竞品分析(移动端) 斗鱼.熊猫.虎牙 分析基于iOS客户端版本:斗鱼V2.450. 熊猫V2.2.6.1582.虎牙V4.4.0 市场分析 游戏直播作为直播行业战火的开端可以说毫不为过,随着游戏行业与直播行业规模也不断攀升,游戏直播的规模也大幅增长,找到一个艾瑞发布的数据如下. 同时,随着网络设备与游戏设备等的普及,用户规模也经历了初创.沉淀.爆发几个时期,下面也是出自艾瑞的用户数据. 伴随着用户规模的扩大,游戏直播平台的泛娱乐化也成为了一大趋势.

(转)中华英才网竞品分析报告2016

https://blog.51cto.com/milkyqueen520/1751567 中华英才网竞品分析报告 1 背景 1.1 行业背景 1) 网民增速不断提升,移动端网民规模过半. 2016年1月22日,中国互联网络信息中心 (CNNIC)发布第37次<中国互联网络发展状况统计报告>.截至2015年12月,中国网民规模达6.88亿, 半数中国人已接入互联网. 其中,2015年新增网民3951万人,增长率为6.1%,较2014年提升1.1个百分点,网民规模增速有所提升. 图 1  2011

产品经理之竞品分析下

竞品分析下 成果目的与竞品选取 收集高相关竞品动态报 关注行业新趋势/新技术 引发创新思考与讨论 2.分类分级的重要性 1.1分类让动态更好用 基于用户体验分层分类:战略层.范围层.框架层.结构层.表现层基于用户体验旅程分类:导购.加购支付.物流.客服.售后基于变更类型分类:功能迭代.体验优化.投融资.运营活动 1.2分级让动态更可用: 重要需关注: 直接对手重大调整 国家政策/行业规定出台 互联网巨头的本行业动作 核心优势被挑战 3.以小见大,洞察趋势 4.成果形式与特点 1. 以专项调研报告