1、介绍:
YouTube推荐的挑战:
scale:很多算法在小数据有用,在youtube无用;
freshness:需要对对新上传视频足够敏感;
noisy:没有真实的用户反馈;缺少结构化的数据
2、skip
3、候选生成:
之前的模型是基于矩阵分解;YouTube的DL模型的前几层就是使用神经网络模拟这种分解;这可以看成是分解技术的非线性泛化
3.1、把推荐看做多分类:
NCE和hs,文字指出hs没有得到nce的效果;YouTube认为,遍历树中不相关节点,使效果变差。
在线预估的时候,并不是对所有video打分;而是用近邻检索方案
3.2、架构:
用户观看行为作为WordVec;用户浏览作为WordVec;以此作为输入,后面接几个全连接和Relu。
ps:用户观看多个video,每个video有一个vec;以avg作为user vec效果最好。
3.3、各种信号:
1)使用人口统计学特征作为先验,使得对新用户推荐合理;
2)用户对于新的视频感兴趣,即使相关性低;
但是系统习惯于推荐过去的视频,因为训练是基于历史数据;
视频的观看时长是不稳当的,但是我们的模型偏向于拟合视频的平均观看时长;
因此在训练集中,考虑video的上传时间特征对模型很重要。
3.4、样本和上下文选择:
1)以所有的watch为样本,而非推荐结果中的watch为样本;
2)每个用户选择一样多的样本,防止某些用户居于主导地位
3)很多CF潜在地把用户的行为pair看做对称的,而YouTube的video则不是,所以前后不对称;
3.5、实验
特征越多,层次越深越好
4、排序
排序的目的:
1)使用曝光校准推荐结果,因为推荐依据相关性,但是点击可能有更多因素;
2)融合不同推荐源的结果
预估目标是观看时间,方法是LR;若预估点击率,那么会鼓励低质量的欺骗视频
4.1、特征表示
有数值特征,有分类特征;
分类特征又可以分为单值分类特征,多值分类特征;
连续特征泛化能力好,因为它本身是item的泛化;
候选集来源和得分也重要;
展现频次特征可以引入流失信息,也很重要(样本被展现不被点击,就不再展现,频次表现了物品的质量);
分类特征用词向量;
NN对于特征量纲敏感,连续特征要归一化(决策树不敏感);文中使用累积概率密度归一化;
对归一化值使用幂函数,可以提升离线表现;
4.2、对观看时间建模
目标函数是WeightedLR;负样本使用Unit weight.
遗留问题:
1、基于重要性权重矫正样本,是什么技术?
2、近邻检索方案是如何实现的?
3、WeightedLR如何使用