论文研读1.1 基于 DeepFM 模型的广告推荐系统研究（郁等）

基于 DeepFM 模型的广告推荐系统研究（郁等）

摘要

信息呈指数爆炸增长的时代，如何在这个信息千变万化的世界里获得用户想要的数据显得尤其重要。作者们提出了DeepFM模型并且实验结果发现，DeepFM模型比逻辑回归和因子分解机模型的效果都要好。

关键词

DeepFM 特征提取广告推荐深度神经网络因子分解机

引言

海量信息与人难以获得准确信息的矛盾现状
广告推荐问题一般可理解为广告点击率问题（基于用户行为的预测问题）。难以解决的问题：数据量大、数据稀疏、异常数据等。复杂模型训练难度大，容易出现过拟合问题（模型越复杂，考虑参数影响因素越多，训练拟合越好），因此工业界一般使用较为浅层的模型，解决的主要问题就是特征工程。
- 过拟合：模型过度拟合，在训练集（training set）上表现好，但是在测试集上效果差。训练时尽可能的兼顾每个数据，曲线过于完美，训练时数据分散，拟合效果差
- 欠拟合：模型拟合不够，在训练集（training set）上表现效果差，没有充分的利用数据，预测的准确度低。
- 防止过拟合的方法有：
  - 获取更多数据
  - 减少特征变量
  - 限制权值（正则化）
  - 贝叶斯方法
  - 结合多种模型
- 其中最有效方法是获取更多数据，足够的数据能够让模型不断修正自己，获得更好的结果。
- 防止欠拟合：
  - 引入新的特征
  - 添加多项式特征
  - 减少正则化参数
针对文章参考文献分析，参考文献采用的模型及模型的发展

相关理论
逻辑回归：逻辑回归的基础与应用，点击预测分类（二分类方法）
因子分解机：
由公式知在线性回归模型后面加了一坨东西，主要用来做低阶特征组合。
必要解释n代表样本的特征数量，x加上下标i是第i个特征的值，几个w为模型参数。写在一起的x则表示第i和第j个特征的组合，且两个数值都不为0时，组合才有意义。以上公式看出共有n(n-1)/2个组合特征。
多项式公式是包含特征组合的最直观的模型，由于需要训练大量的参数（w加上下标ij的参数），但由于训练样本稀疏，x加上下标为i和x加上下标为j的特征值都不为0的更少，训练样本不足，导致训练参数不准，影响模型性能，所以引入以下隐向量
二项式的参数从n(n-1)/2减少到Kn个。原来的二项式参数之间是相互独立的，采用隐向量点积形式组合成的二项式特征都可以用来学习隐向量。
通过以下公式进行优化：可使时间复杂度从O(kn^2)下降到O(kn),计算量大大降低。
DeepFM

逻辑回归模型主要提取了一阶特征，FM模型在逻辑回归模型的基础上做了改进，受限于计算复杂度只提取到二阶组合特征。由于不能满足实际生产中需要提取二阶以上更高阶的需求，提出DeepFM模型。

实验结果

公开数据集-腾讯社交广告的公开数据集（用户数量800万，1个数值型特征，31个类别型特征（包含11个多值类别型特征）样本正负比例不平衡（正负比约1:20），评估方式采用AUC评分，AUC定义为ROC曲线下与坐标轴成的面积，ROC曲线的横纵坐标分别为假正率和真正率
实验结果图和说明

结束语

原文地址：https://www.cnblogs.com/h-s-l/p/12164044.html

时间： 2024-10-11 04:58:01

论文研读1.1 基于 DeepFM 模型的广告推荐系统研究（郁等）的相关文章

论文研读1.0 基于神经网络与因子分解机的点击率预估应用研究（陈检）

基于神经网络与因子分解机的点击率预估应用研究(陈检) 摘要长久以来广告点击预估率问题属于用户行为预测研究问题,其主要解决是特征工程问题. 深度神经网络主要提取高阶特征,因子分解机提取二阶以下特征注改:因子分解机实际应用中受限于计算复杂度,一般只考虑到2阶交叉特征(FM预测时间复杂度O(kn),FFM预测时间复杂度O(kn^2),FM提取低阶组合特征,Deep提取低阶组合特征,同时学习低阶和高阶的组合特征. FM与Deep共享同样的输入. 通过对比试验发现:基于深度神经网络和因子分解机的组合模

AD预测论文研读系列1

A Deep Learning Model to Predict a Diagnosis of Alzheimer Disease by Using 18F-FDG PET of the Brain 原文链接提要目的开发并验证一种深度学习算法,该算法可以基于脑部18F FDG PET来预测AD.轻度认知障碍或者二者均不是的诊断结果,并将其性能与放射学阅读器的性能进行比较材料和方法来自ADNI的18F-FDG PET脑图(含2109张图片,包括1002个病人)用于训练.验证,40张来自4

论文：利用深度强化学习模型定位新物体(VISUAL SEMANTIC NAVIGATION USING SCENE PRIORS)

这是一篇被ICLR 2019 接收的论文.论文讨论了如何利用场景先验知识 (scene priors)来定位一个新场景(novel scene)中未曾见过的物体(unseen objects).举例来说,在「厨房」这一场景中,有一张图片显示「苹果」在冰箱的储物架上,同为水果的物体,如「橙子」,会出现在场景的哪个位置呢?论文提出了用基于强化学习的方法来定位「橙子」. 论文:VISUAL SEMANTIC NAVIGATION USING SCENE PRIORS 论文作者:Wei Yang , X

C++模版基于包含模型之外的显示实例化

一."经典模型"的失效我们学过C++的人都知道,在C++中组织代码的经典模型是:将函数或类的声明和定义部分分开在不同的文件之中 , 即一般将声明放在一个.h的头文件中而定义在放在一个.cpp文件之中,当然这的确是写代码的一种很优良的风格,但问题是如果将这种"经典模型"应用到模版上时就会发生连接上错误. 例如: 文件"A.h" #include"iostream" using namespace std; #pragma

基于网络的服装定制MTM系统研究 - 硕士论文 - 道客巴巴

国内的mtm系统_百度搜索基于网络的服装定制MTM系统研究 - 硕士论文 - 道客巴巴 PDF文档(共76页) - 下载需1800积分天津工业大学硕士学位论文基于网络的服装定制MTM系统研究姓名:薛煜东申请学位...目前已成为国内外服装行业的一个研究重点,其本质和核一心就是为客户提供专业化... www.doc88.com/p-209225...?2012-03-21? ? ?-?百度快照?-?74%好评基于网络的服装定制MTM系统研究 - 硕士论文 - 道客巴巴,布布扣,bubuk

京东评论情感分类器（基于bag-of-words模型）

最近在本来在研究paraVector模型,想拿bag-of-words来做对比. 数据集是京东的评论,经过人工挑选,选出一批正面和负面的评论. 实验的数据量不大,340条正面,314条负面.我一般拿200正面和200负面做训练,剩下做测试. 做着做着,领悟了一些机器学习的道理.发现,对于不同的数据集,效果是不同的. 对于特定的数据集,随便拿来一套模型可能并不适用. 对于这些评论,我感觉就是bag-of-words模型靠谱点. 因为这些评论的特点是语句简短,关键词重要. paraVector模型感

Spring基于事件驱动模型的订阅发布模式代码实例详解

代码下载地址:http://www.zuidaima.com/share/1791499571923968.htm 原文:Spring基于事件驱动模型的订阅发布模式代码实例详解事件驱动模型简介事件驱动模型也就是我们常说的观察者,或者发布-订阅模型:理解它的几个关键点: 首先是一种对象间的一对多的关系:最简单的如交通信号灯,信号灯是目标(一方),行人注视着信号灯(多方): 当目标发送改变(发布),观察者(订阅者)就可以接收到改变: 观察者如何处理(如行人如何走,是快走/慢走/不走,目标不会管的

基于Select模型的混乱聊天室v1.0

最近在无聊完成了一个简单的基于select模型的匿名聊天室程序,均使用C++开发服务器工作原理: 每接收一条客户端的信息,就将遍历所有的socket,并将该信息发给所有的客户端. 客户端使用两条线程,一个是接收服务端信息的线程,一个是等待阻塞输入的线程,获得输入时,将输入发送到服务器. 项目源码:https://github.com/coderguang/Chat 版本为v2.0的release. 其中ComLib也在github上服务器核心代码: int main(int argc,cha

《BI项目笔记》基于雪花模型的维度设计

原文:<BI项目笔记>基于雪花模型的维度设计 GBGradeCode 外键关系: 1 烟叶等级 T_GBGradeCode.I_DistinctionID=T_Distinction.I_DistinctionID 烟叶等级分为:上等烟.中等烟.下等烟.末等烟.低等烟.低次等烟.其它.下低等烟 2 分级标准 T_GBGradeCode.I_GradStanCode=T_GradeStandard.I_GradStanCode 取值为:四十二级.二十八级.自定义.其他.工艺级别 3 烟叶烤型 T

论文研读1.1 基于 DeepFM 模型的广告推荐系统研究（郁等）

基于 DeepFM 模型的广告推荐系统研究（郁等）

摘要

关键词

引言

相关理论

实验结果

结束语

论文研读1.1 基于 DeepFM 模型的广告推荐系统研究（郁等）的相关文章