关联规则应用到图书推荐的问题

本文是观看了小象学院《大数据应用中的算法如何创造商业价值》,现在做一下梳理

问题:当当网中”最佳拍档”中的关联规则算法

对于解决一个实际的问题,我们看一下一般的思路流程是什么样的

1. 目前的关联规则是什么的

2. 问题发现和分析:现在的方法有什么问题

3. 效果空间预估:理想情况下,这个问题通过某种解决方法,可以达到的效果什么

4. 算法改进:基于上面的理想效果,我们如何通过算法的改进朝着这个目标迈进

5. 效果衡量:对算法的改进效果做评估,没有评估就像算法缺乏目标函数一样

6. ROI分析:实际结果的分析

我们一步一步的看这个问题

传统的关联规则是什么样的

1. 关联规则在介绍数据挖掘中的图书中一般都会介绍,主要涉及到两个概念

例如有两个物品A、B,那么A、B的

支持度是一个联合概率的概念,指的是A、B出现的概率,也即A、B同时出现的次数除以总的次数

置信度是一个条件概率的概念,指的是例如A出现时,B出现的概率

2. 问题发现和分析

现在的关联规则是有问题的,主要有四个问题

(1)支持度计数的选取的问题

我们要对支持度计数大于某个阈值K的商品计算支持度,置信度还有后续的操作,那么K值的选取就是一个重要的问题,如果K值较小,那么将会有大量的数据参与运算,势必会对算法的实际实现有更大的挑战,如果K值的选取比较大,那么将会造成某些商品的推荐商品太少的问题,所以K值的选取是一个比较大的问题

(2)所有订单里的商品是否应该有相同的权重

例如订单a里有2个商品,订单b里有10个商品,那么订单a里的商品的关联程度是否应该与订单b里的商品的关联程度一样,其实这个问题,从主观上理解应该不一样,同一个订单商品量少他们之间的关联程度更高,而商品量多的订单商品之间的关联程度应该更低

(3)畅销书与非畅销书的权重是否应该一样

畅销书会出现在很多订单里,那么畅销书是否跟订单里的其他书的关联程度跟非畅销书与订单的其他书籍是否应该一样的权重,应该不一样

(4)订单里的图书种类非常多

当当网上经常会出现满300减100的活动,所以很多人都会去凑一个大的订单,订单里有计算机技术数据,老婆怀孕用的书籍等等,那么我们是否应该在计算机的书籍里将孕期注意事项这种书有一样的权重,应该是不一样的。

这里的第二、三、四个问题都是因为大订单导致的问题,那么大订单的数量多不多,直接决定着我们要不要解决这个问题,下面是大订单数量的统计,可以看到,大订单的比例还是很高的,所以这些问题是需要解决的,或者说这些问题就是我们可以优化的点

3.  效果空间预估

有了上面的这些问题,我们要预估一下,如果解决了这些问题,我们能够达到的效果,也就是要做一下效果的预估,做这个预估有两个原因,一是看一下我们是否有必要花大的力气做这件事情,如果预估的效果提升不大,那么我们就没有必要去做这个优化,二是可以作为我们优化的目标。

理想产出=经过推理和评估达到的理想程度

实际产出=现实产出,通过历史数据可以得到

那么预估的效果提升=理想产出-实际产出。

可以看到实际的产出只需要跑一下历史数据即可得到,那么理想的产出如何得到呢,线面介绍一下方法

举个实际的例子,就是这些图书的ctr,我们要预估ctr的最大空间,这里有两种方法

一是:用平均值作为目标,看一下通过优化低于平均值的那些样本所带来的产出作为理想的情况

二是:用推荐的比较好的样本作为目标,看一下将所有的商品优化到跟目前比较好的样本一样的情况下所带来的产出

这两种方法的思路是一致的,只不过定的目标不一样,一个是用平均值,一个是用最高值,可以看到用最高值作为理想输出的最大空间更大一些。

时间: 2024-10-03 13:44:49

关联规则应用到图书推荐的问题的相关文章

基于关联规则的电子商务智能推荐服务--实例讲解

学习目标 了解网站如何记录用户的访问数据,深入了解在网站如何根据用户的历史访问数据进行关联规则分析,解决网页智能推荐问题,同时在访问数据中提取用户的访问特征,对用户群体进行划分,针对不同用户群进行推荐. 课程目标:了解网站如何记录用户的访问数据,深入了解网站如何根据用户的历史访问数据进行关联规则分析,解决网页智能推荐问题,同时在           访问数据中提取用户的访问特征,对用户群体进行划分,针对不同用户群进行推荐. 课程特色:网站智能推荐实用案例讲解 适用人群:数学专业,数据挖掘专业,数

【图书推荐】Windows 8应用开发:C#和XAML卷(原名:Building Windows 8 Apps with C# and XAML)

当当网:http://product.dangdang.com/23453641.html 京东:http://item.jd.com/11439855.html 亚马逊:http://www.amazon.cn/Windows-8%E5%BA%94%E7%94%A8%E5%BC%80%E5%8F%91-C-%E5%92%8CXAML%E5%8D%B7-%E8%8E%B1%E5%85%8B%E5%B0%BC%E6%96%AF/dp/B00JGI2NRU/ref=sr_1_2?ie=UTF8&qi

(5)基于协同过滤推荐算法的图书推荐研究

协同过滤算法以其出色的计算速度和健壮性,在全球范围内特别是在互联网领域中取得了巨大成功.文章介绍了基于物品的协同过滤算法的基本思想和实现步骤,以及应用于实际图书推荐项目中的效果和产生的问题.基于物品的协同过滤算法的基本原理是和某用户历史上感兴趣的物品,越相似的物品,越有可能在用户的推荐列表中获得比较高的排名.算法的基本步骤为收集用户偏好,计算物品之间的相似度,计算用户对某一个物品的兴趣度.文章中介绍的系统在实际应用中效果良好.今后该系统的升级版将重点研究如何解决算法的稀疏性以及如何提高图书推荐质

数据分析经典图书推荐

一.基础知识:我们都该学点统计学? 统计学是一门以概率论为基础的方法论学科,主要通过收集数据,进行量化的分析.总结,并进而进行推断和预测,为相关决策提供依据和参考.它在几乎所有学科领域里面都具有重要的应用,从物理.社会科学到人文科学,甚至被用来工商业及政府的情报决策之上. 往近了说,想要成为一名数据分析师或已是数据分析师需要提高的,必须掌握最基本的统计基础知识.统计思想:下面给推荐的,是目前市面上有关统计学原理写的相当不错的一些图书,供大家学习参考!! 1.<深入浅出统计学> 购买地址:京东 

网络编程学习方法和图书推荐

从事网络编程有五年多了,写过自己的Server,读过大部分网络库libevent,redis, muduo等等,市面上的网络用书大多读过,给新人一些建议,主要是从事服务器网络编程后端的同学. 如果你没写过网络编程的代码,也没有这方面的知识,那么该如何下手呢?这个时候不需要盲目看书,先培养一下自己的兴趣,了解TCP如何建立连接,TCP三次握手和四次握手的过程,有了这个,然后去了解socket方面编程的基本知识,socket的创建,绑定,连接,发送,接收,建立连接等api,学习完这些api,试着去写

Ruby相关图书推荐

Ruby基础教程第4版 作      者 [日] 高桥征义,[日] 后藤裕藏 著:何文斯 译:[日] 松本行弘 校 出 版 社 人民邮电出版社 出版时间 2014-09-01 版      次 4 页      数 334 印刷时间 2014-09-01 开      本 16开 纸      张 胶版纸 印      数 1 I S B N 9787115366467 推荐指数:★★★★★ 购买地址:立即购买 Ruby元编程 作      者 Paolo Perrotta 著:廖志刚 译 出 

C语言相关图书推荐

C Primer Plus(第5版 中文版) 作      者 [美] 普拉塔(Prata S.) 著:云巅工作室 编 出 版 社 人民邮电出版社 出版时间 2005-02-01 版      次 1 页      数 626 印刷时间 2005-02-01 开      本 16开 纸      张 胶版纸 印      数   I S B N 9787115130228 推荐指数:★★★★★ 购买地址:立即购买 图灵程序设计丛书:嗨翻C语言 作      者 [美] David Griffi

Android相关图书推荐

疯狂Android讲义(第3版 附光盘) 作      者 李刚 著 出 版 社 电子工业出版社 出版时间 2015-06-01 版      次 3 页      数 780 印刷时间 2015-06-01 开      本 16开 纸      张 胶版纸 印      数 1 I S B N 9787121259586 推荐指数:★★★★★ 购买地址:立即购买 Android 开发范例代码大全(第2版) 作      者 [美] 斯密斯(Smith,D.),(美) 弗里森 (Friesen

C++相关图书推荐

C++ Primer(中文版 第5版) 作      者 Stanley B. Lippman,Josée Lajoie,Barbara E. Moo 著:王 出 版 社 电子工业出版社 出版时间 2013-09-01 版      次 5 页      数 848 印刷时间 2013-09-01 开      本 16开 纸      张 胶版纸 印      数 1 I S B N 9787121155352 推荐指数:★★★★★ 购买地址:立即购买 C++程序设计语言(特别版·十周年中文纪