百度技术沙龙 - 广告数据上的大规模机器学习

上个月,参加了百度技术沙龙, 夏粉的《广告数据上的大规模机器学习》讲座介绍了大规模机器学习中的若干重要问题。遗憾的是,百度的相关算法没有公开的论文。

1.  数据处理

目标: 获取信息, 去除噪音

机器学习技术点: 选择对点击概率分布 预估足够多样本

解决方法: a. 不可见和不完整样本过滤; b. 样本采样; c. 异常样本检测

算法:a. 百度 SA算法; b. Google (KDD 2013)

2. 特征处理

问题:大量的类型型特征和ont-hot特征导致海量特征

目标: 选择尽可能少的特征来表示模型和数据

机器学习技术点: 特征选择; 特征删减

算法: a. 百度 Fea-G算法 (理论上保证无损); b. Google (新特征以概率p加入BloomFilter+次数超过n)

3. 深度特征学习

问题: 为了描述特征之间的非线性关系,而构造高阶组合特征怎么自动化?人工构造耗时耗力且难于推广

算法:百度 DANOVA算法, 能使得特征挖掘效率提升上千倍

4. 模型时效性

问题: 模型更新的时候训练数据尽可能少

技术挑战:时效性,稀疏性, 稳定性

算法: 稀疏在线算法

a. Google 保留前N次模型梯度方法, 不够稳

b. 百度 SOA算法

5. 模型训练

问题: 怎么寻找更好的优化方向,减少迭代的轮数

算法: 百度Shooting算法,相比传统的LBFGS从平均50轮,降低为5轮,训练更充分

参考文献

1. Ad Click Prediction: a View from the Trenches (KDD 2013 Google)

2. Lessons learned by developing large scale practical machine learning system (Google Seti Project. Simon Tong 04/06/2010)

百度技术沙龙 - 广告数据上的大规模机器学习,布布扣,bubuko.com

时间: 2024-10-10 16:54:58

百度技术沙龙 - 广告数据上的大规模机器学习的相关文章

百度技术沙龙 - 大数据场景下主题检索应用

第48期百度技术沙龙上的<大数据场景下主题检索应用>讲座介绍了很多训练大规模主题模型的技术细节.讲座回来后,我粗略整理了下讲座上涉及的主题模型和训练大规模模型相关的资料和文献. 1. 主题模型的发展历史 a. 布尔模型 Boolean model b. 向量空间模型 VSM (Vector space model) c. 潜在语义索引 LSI (Latent semantics index) - 首先作为一种降维技术, 对doc-word矩阵进行SVD分解 d. 概率潜在语义分析pLSA e.

百度技术沙龙第48期回顾:大规模机器学习(含资料下载)

原文:http://www.infoq.com/cn/news/2014/03/baidu-salon48-summary 2014年3月15日,在由@百度主办.@InfoQ负责策划组织和实施的第48期百度技术沙龙活动上,来自百度联盟大数据机器学习技术负责人夏粉,和搜狗精准广告研发部技术经理王晓博,各自分享了其在机器学习方面的实战经验.他们的话题涉及“广告数据上的大规模机器学习”和“大数据场景下主题检索应用”这两个方面,本文将对讲师各自的分享做简单的回顾,同时提供相关资料的下载. 主题一:广告数

百度技术沙龙&amp;InfoQ笔记

百度技术沙龙&InfoQ笔记 by 伍雪颖 百度技术沙龙&InfoQ 弹窗 1,弹窗影响是可控的,白文件的弹窗 防御,是为了拦截未知的病毒木马,状态,病毒库,未知行为,采用的api, 黑白的集合样本,加快状态,目标,归类 3个监控点:对api的拦截,数据挖掘来的api,监控点,危险行为,高危和低危,提取特征,软件推广,沙龙广告,改变签名 安装包,释放文件,云防御模式 对抗(安全), 第一部分是一个做技术哥们讲的 云端处理,速度比较快,云规则,云防御模式 绿盟,张彦 2000,系统集成,企业

爱奇艺广告技术沙龙---广告召回

爱奇艺技术沙龙——广告算法与架构设计-爱奇艺直播-爱奇艺 一.AI在视频广告中的应用: 1.广告的目的: 在一定周期,让尽可能多的人产生消费. 长周期:品牌广告(比如阿迪.nike等品牌),短周期:效果广告(比如平时打开网页出现在眼帘的广告). 消费行为:购买.激活.安装.下载.点击. 2.如何传达消费价值: 匹配需求:用户行为(搜索.浏览.点击等).统计特征(性别.年龄.地区等) 能够将用户想要看的广告适时地推到面前,让广告主的广告得到合理的投放. 展示价值:场景(点位)+效果(索引) 场景化

第四十期百度技术沙龙笔记整理

本期的技术沙龙主题内容是LBS技术,虽然LBS应用最近这两年在业内炒得风生水起,但是我感觉离广泛应用好像还是有一定距离. 本期的讲座主讲讲师是百度定位服务负责人张传明.陌陌的CTO李志威.北邮邓中亮教授,覆盖了技术实现原理.实际应用经验.学术发展前沿三个方面. 张传明工程师的讲座分析了目前手机定位技术现状和使用前景,以及百度定位服务API在解决目前定位技术的弱势方面所做的工作和一些业界目前解决这方面问题的先进做法: 目前的定位技术从数据源方面主要由两个方面:基于GPS定位导航卫星技术的定位和基于

三十三期百度技术沙龙笔记整理

此次技术沙龙是由百度的高级架构师陈天健和豆瓣首席科学家王守崑为主讲,大主题是推荐系统. 陈天健的主要话题是百度推荐引擎计算平台架构中的流式计算架构.中间有一种因为几个短信有点错过,等视频出来再听一遍,这个笔记基本没啥整理,主要是个备档,感兴趣的同学可以直接去InfoQ看视频.下面把记的笔记抄上来: NLP---当前分析热点: 传统架构以Hadoop为主,流式计算加速数据处理: QueueWorker: 流式计算系统,拓扑S4.DAG: 多样索引 及时计算获得用户访问成倍增长. 整个工程引擎化--

百度技术沙龙-自然语言处理技术及应用笔记整理

第一场由百度这方面的大拿吴华分享: NLP技术支持大多数百度产品 搜索引擎从关键词到语义理解搜索 应用未来趋势:1.知识语义搜索;2.对话式搜索;3.主动推荐,不搜即得;4.精准个性化服务. NLP的挑战:需求识别.知识挖掘.用户引导.结果组织和展现. 理解文本的目标是理解用户.用户建模.用户行为预测 百度翻译免费API 实体名词挖掘:分类.需求.ontology建设 query理解. DNN用于软聚类 Parser技术用于复杂query理解. 基于shift-reduce的依存决策分析算法--

C#工业物联网和集成系统解决方案的技术路线(数据源、数据采集、数据上传与接收、ActiveMQ、Mongodb、WebApi、手机App)

目       录 工业物联网和集成系统解决方案的技术路线... 1 前言... 1 第一章           系统架构... 3 1.1           硬件构架图... 3 1.2           组件构架图... 4 第二章           技术选型与介绍... 5 2.1           开发环境... 5 2.2           数据源... 5 2.3           数据采集... 5 2.4           数据上传服务... 6 2.5      

首届中国大数据技术沙龙会议

当今最红的名词是大数据,掌握趋势,才能赢得未来!首届中国大数据技术沙龙会议暨超人学院技术交流会,邀请各位前来参会.在这里,你可以了解大数据技术的趋势,掌握企业对于技术的最新动态,学习和分享你在工作中的经验及问题,你可以分享也可以提问,让你掌握大数据最前沿的技术.奔跑吧,兄弟!赶快报名参加!更多精彩内容抢先看!