关于数据挖掘中的推荐系统

一、推荐系统概述和常用评价指标

　　1.1 推荐系统的特点

　　在知乎搜了一下推荐系统，果真结果比较少，显得小众一些，然后大家对推荐系统普遍的观点是：

　　(1)重要性UI>数据>算法，就是推荐系统中一味追求先进的算法算是个误区，通常论文研究类的推荐方法有的带有很多的假设限制，有的考虑工程实现问题较少，推荐系统需要大量的数据整理和转化，同时更需要考虑公司业务特性以及与现有系统的集成，方能形成推荐系统和业务之间的良性循环；

　　(2)推荐系统离线测试很好，上线后要么没有严格的测试结果而只能凭感觉，要么实际效果差强人意，我想主要缘于离线测试比较理想，而在线AB冠军测试无论对于前端还是后台要求都很高，没有雄厚的研发实力难以实现；

　　(3)推荐系统受到的外部干扰因素特别多（季节、流行因素等），整个系统需要不断的迭代更新，没有一劳永逸的事情。

如何学习推荐系统？

推荐系统常用的推荐算法

时间： 2024-10-04 15:58:53

关于数据挖掘中的推荐系统的相关文章

关于数据挖掘中的文本挖掘

文本挖掘, 顾名思义,就是挖掘本文信息中潜在的有价值的信息.文本数据与数值数据的区别有三: 第一,非结构化且数据量大: 文本数据的数据量是非常之巨大的,一百万条结构化数据可能才几十到几百兆,而一百万条文本数据就已经是GB了.当然文本数据的数据量无法与每天的log数据相比,但在基础数据中算是占比很大的数据类型了.大数据容量的数据和大数据条目的数据处理方式完全不一样,普通的机器甚至都无法按条处理:其次呢,文本数据是非结构化数据.非结构化意味着没有任何的列可供你定义和参考. 第二,它与人的语言是对接的

数据挖掘中分类算法小结

数据挖掘中分类算法小结数据仓库,数据库或者其它信息库中隐藏着许多可以为商业.科研等活动的决策提供所需要的知识.分类与预测是两种数据分析形式,它们可以用来抽取能够描述重要数据集合或预测未来数据趋势的模型.分类方法(Classification)用于预测数据对象的离散类别(Categorical Label);预测方法(Prediction )用于预测数据对象的连续取值. 分类技术在很多领域都有应用,例如可以通过客户分类构造一个分类模型来对银行贷款进行风险评估;当前的市场营销中很重要的一个特点是强

数据挖掘中所需的概率论与数理统计知识

http://blog.csdn.net/v_july_v/article/details/8308762 数据挖掘中所需的概率论与数理统计知识 (关键词:微积分.概率分布.期望.方差.协方差.数理统计简史.大数定律.中心极限定理.正态分布) 导言:本文从微积分相关概念,梳理到概率论与数理统计中的相关知识,但本文之压轴戏在本文第4节(彻底颠覆以前读书时大学课本灌输给你的观念,一探正态分布之神秘芳踪,知晓其前后发明历史由来),相信,每一个学过概率论与数理统计的朋友都有必要了解数理统计学简史,因为,

关于数据挖掘中“多重共线性”的确定方法（有图有真相）

回归分析是数据挖掘中最基本的方法,其中基于普通最小二乘法的多元线性回归要求模型中的特征数据不能存在有多重共线性,否则模型的可信度将大打折扣.但是就是技术而言,如何确定模型中的各各特征之间是否有多重共线性呢? 先来看一组数据我们能否用这组数据来建立多元线性回归模型呢?现在这组数据的问题还不十分明显,我们不妨用最简单的交叉散点图来透视一下数据可能存在的问题.于是我们在R中绘制了下图: 从散点图中我们可以看出每个解释变量都与被解释变量有较明显的线性关系,而且这也是我们所希望看到的.但是两个解释变量之

机器学习与数据挖掘中的十大经典算法

背景: top10算法的前期背景是吴教授在香港做了一个关于数据挖掘top10挑战的一个报告,会后有一名内地的教授提出了一个类似的想法.吴教授觉得非常好,开始着手解决这个事情.找了一系列的大牛(都是数据挖掘的大牛),都觉得想法很好,但是都不愿自己干.原因估计有一下几种:1.确实很忙2.得罪人3.一系列工作很繁琐等等.最后和明尼苏达大学的Vipin Kumar教授一起把这件事情承担下来.先是请数据挖掘领域获过kdd和icdm大奖的十四个牛人提名候选,其中一人因为确实很忙,正从ibm转行到微软,吴教授

浅谈数据挖掘中的关联规则挖掘

数据挖掘是指以某种方式分析数据源,从中发现一些潜在的有用的信息,所以数据挖掘又称作知识发现,而关联规则挖掘则是数据挖掘中的一个很重要的课题,顾名思义,它是从数据背后发现事物之间可能存在的关联或者联系.举个最简单的例子,比如通过调查商场里顾客买的东西发现,30%的顾客会同时购买床单和枕套,而购买床单的人中有80%购买了枕套,这里面就隐藏了一条关联:床单—>枕套,也就是说很大一部分顾客会同时购买床单和枕套,那么对于商场来说,可以把床单和枕套放在同一个购物区,那样就方便顾客进行购物了.下面来讨论

数据挖掘中的度量方法

??在数据挖掘中,无论是对数据进行分类.聚类还是异常检测.关联性分析,都建立在数据之间相似性或相异性的度量基础上.通常使用距离作为数据之间相似性或相异性的度量方法,常用的度量方法有欧式距离.曼哈顿距离.切比雪夫距离.闵可夫斯基距离.汉明距离.余弦距离.马氏距离.Jaccard系数.相关系数.信息熵. 欧式距离 ??$n$维空间中两个样本点$x$和$y$之间的欧几里得距离定义如下:$$d(x,y)=sqrt{Sigma_{k=1}^n (x_k-y_k)^2}$$标准化欧式距离公式如下:$$d(x

数据挖掘中易犯的十大错误

按照Elder博士的总结,这10大易犯错误包括: 0. 缺乏数据(Lack Data)1. 太关注训练(Focus on Training)2. 只依赖一项技术(Rely on One Technique)3. 提错了问题(Ask the Wrong Question)4. 只靠数据来说话(Listen (only) to the Data)5. 使用了未来的信息(Accept Leaks from the Future)6. 抛弃了不该忽略的案例(Discount Pesky Cases)7.

数据挖掘中的基本概念

OLAP(On-Line Analytical Processing):联机分析处理当今的数据处理大致可以分成两大类:联机事务处理OLTP(on-line transaction processing).联机分析处理OLAP(On-Line Analytical Processing).OLTP是传统的关系型数据库的主要应用,主要是基本的.日常的事务处理,例如银行交易.OLAP是数据仓库系统的主要应用,支持复杂的分析操作,侧重决策支持,并且提供直观易懂的查询结果.下表列出了OLTP与OLAP之

猜你喜欢

受康奈尔笔记法启发设计的程序员算法手写本

大多数程序员都习惯了平时在电脑上敲代码,但也有些情境要求我们手写代码,比如平时学习时做纸质笔记,完成老师布置的课程作业,同事之间交流讨论讲解思路,ACM比赛时手写分析算法,还有最常见的面试手写算法等. ...

mysql+keepalived

1.安装 # yum install -y openssl-devel popt-devel # tar zxf keepalived-1.2.8.tar.gz # cd keepalived-1.2 ...

算法积累（字符串转换驼峰，判断一个字符串中那个字母出现次数最多，并且出现了几次）

因为算法比较烂,所以想做一下这方面的积累. 尽量能够每天学习一个新算法吧.(不过估计很悬) 好吧,今天第一个是字符串转换驼峰直接上代码 var str = 'toupper-case'; var a ...

人缘好的开始发挥搞的

http://you.ctrip.com/events/unitedstates100047/4148403.html http://you.ctrip.com/events/unitedsta ...

CALayer 易混淆的两个属性 - position和anchorPoint

1.简单介绍 CALayer有2个非常重要的属性:position和anchorPoint @property CGPoint position; ...

html 5 marign top right bottom left

<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/ ...

萌新笔记——git的问题（error: object file .git/objects/* is empty...）的解决方案及对git版本库文件的了解

由于操作不当,导致git版本库出了大问题,如下所示: error: object file .git/objects/8b/61d0135d3195966b443f6c73fb68466264c68e ...

RDMA的ibv_post_send() 函数

函数原型为 int ibv_post_send(struct ibv_qp *qp, struct ibv_send_wr *wr, struct ibv_send_wr **bad_wr); 其中s ...

在Linux命令行下发送html格式的邮件

在Linux利用formail+sendmail来发送带图片的邮件 formail接收html格式的文件作为邮件的内容,这样就可以解决发送带图片邮件的问题了,因为html中可以插入图片,只要给出的im ...

登录式shell和非登录式shell

在用户的角度,SHELL的类型有两种: 登录式shell: 正常通过某客户端登录 su - USERNAME 或 su -l USERNAME 非登录式shell: su USERNAME 图形终 ...

数据绑定（八）使用Binding的RelativeSource

当一个Binding有明白的数据来源时能够通过为Source或ElementName赋值的办法让Binding与之关联,有的时候因为不能确定Source的对象叫什么名字,但知道它与作为Binding目 ...

iOS开发之Swift调用Objective-C代码

本文写于2014.09.25 最近iOS开发之新编程语言Swift在iOS开发圈内反响比较大,国内外都有很多教程或小示例. 虽然Swift这门语言仍然在不断的进化之中,而且变动还是比较大,苹果公司也不 ...

php 将Unicode 转成汉字

? <?php $s = "\u4e2d\u56fd";//中国 $s=str_replace("\\","%",$s); funct ...

Bringing up interface eth0: Error:Unknown connection:

CentOS网络配置通过vim 修改CentOS /etc/sysconfig/network-scripts/ifcfg-eth0 网卡配置文件,配置网卡静态IP. 修改前文件内容如下: 在修改完 ...

Linux--终端、作业控制、与守护进程

一.进程组,作业,会话的概念 1.进程组:是一个或多个进程的集合.通常,与同一作业相关联,可以接收来自同一终端的各种信号.每个进程都有一个唯一的进程组ID.每个进程组都可以有一个组长进程.组长进程的标 ...

HTML 第5章CSS3美化网页元素

<span>标签: <span>标签是用来组合HTML文档中的行内元素,它没有固定的格式表示. 字体样式: 属性名 ...

2015 multiply 6 1011

Key Set Time Limit: 2000/1000 MS (Java/Others) Memory Limit: 131072/131072 K (Java/Others) Total ...

高数 NYOJ 1043

1 #include<stdio.h>//高数(1043) 2 #include<math.h> 3 double f(double n) 4 { 5 double t; 6 ...

1月第3周网络安全报告：发现放马站点1173个

IDC评述网(idcps.com)01月28日报道:根据CNCERT抽样监测结果和国家信息安全漏洞共享平台(CNVD)发布的数据得悉,在1月第3周(2015-01-12至2015-01-18)期间,我 ...

bzoj3446[Usaco2014 Feb]Cow Decathlon*

bzoj3446[Usaco2014 Feb]Cow Decathlon 题意: FJ有n头奶牛.FJ提供n种不同的技能供奶牛们学习,每头奶牛只能学习一门技能,每门技能都要有奶牛学习. 第i头奶牛学习 ...

专题

随机推荐

© 2024 憋错料 | info#biecuoliao.com | 10 q. 0.021 s.