百度技术沙龙第48期回顾:大规模机器学习(含资料下载)

原文:http://www.infoq.com/cn/news/2014/03/baidu-salon48-summary

2014年3月15日,在由@百度主办、@InfoQ负责策划组织和实施的第48期百度技术沙龙活动上,来自百度联盟大数据机器学习技术负责人夏粉,和搜狗精准广告研发部技术经理王晓博,各自分享了其在机器学习方面的实战经验。他们的话题涉及“广告数据上的大规模机器学习”和“大数据场景下主题检索应用”这两个方面,本文将对讲师各自的分享做简单的回顾,同时提供相关资料的下载。

主题一:广告数据上的大规模机器学习(下载讲稿

一个好的广告匹配系统,需要在解决上述挑战的同时,使用尽可能少的资源挖掘尽可能多的数据价值,提升广告匹配效率。围绕这个目的,夏粉老师以广告点击率预估问题为例,讲解如何利用大规模机器学习技术搭建一个容纳万亿特征数据的、分钟级别模型更新的、自动高效深度学习的、高效训练的点击率预估系统。

计算广告学与CTR预估

计算广告学所面临的最主要挑战是在特定语境下特定用户和相应的广告之间找到“最佳匹配”。语境可以是用户在搜索引擎中输入的查询词,也可以是用户正在读的网页,还可以是用户正在看的电影,等等。而用户相关的信息可能非常多也可能非常少。潜在广告的数量可能达到几十亿。因此,取决于对“最佳匹配”的定义,面临的挑战可能导致在复杂约束条件下的大规模优化和搜索问题。

“我们用机器学习来做广告数据,如何把CTR如何做好,这需要梳理整个处理流程。把整个流程全部梳理完以后,我们才能发现有哪些可做点对点击预估有影响”,蒋锦鹏说。

大规模机器学习

特征规模大:训练样本,每天上百亿级别的访问量;特征类型复杂,广告、用户、流量、季节、节假日等。数据大、特征多、类别不平衡、噪音大。

特征之间存在高度非线性关系: e.g., 不同用户(男、女),在不同年龄段,喜欢点不同广告;同一广告,在不同时间段,点击也不同;异或问题。

数据训练频繁:策略定期更新,策略调研,频繁调用模型训练程序

模型时效性

稀疏性: 模型需要模型保存的信息尽可能少;

时效性: 模型训练数据近可能少;

稳定性: 模型需要的数据信息尽可能多;

Google: 保留前N次模型的梯度及模型,信息损失大,模型不够稳

主题二:大数据场景下主题检索应用(下载讲稿

通常大家碰到的数据集最多也就是几万到几十万篇文章这个量级,但在企业的实际场景中,如果遇到亿级数据该如何处理?如何利用有限的计算集群资源处理呢?

超大的文集,王晓博围绕这一难题向大家介绍了LDA主题模型训练系统以及它在线上预测时需要面对的问题和解决办法。

  • 主题检索模型理论基础
  • 大数据场景下的挑战
  • 构建一个高效的训练系统
  • 模型在商业广告检索中的应用

发展过程——VSM

向量空间模型是一个开创性的概念:

优点:文档可以被表示成一个实数向量;

不同长度的文档都能够被表示成定长的数列;

引入与向量相关的计算方法。

问题:文档被映射在词空间,向量维度太高;

理解能力弱,对语义分析的支持不强通信选型

LDA模型简介

OpenSpace(开放式讨论环节)

为了促进参会者与我们每期的嘉宾以及讲师近距离交流,深入探讨在演讲过程中的疑问,本次活动依然设置了Open Space(开放式讨论)环节。在Open Space的总结环节,几位话题小组长分别对讨论的内容进行了总结。

夏粉:深度学习话题在现在大数据时代将会越来越火,我在演讲时算是为大家抛了个砖,互动过程中大家问了许多实际的问题,希望我的解释能给大家带来一些帮助。

王晓博:关注机器学习的同学热情很高,夏老师讲的干货很多,但只要不涉及关键商业化数据,比如百度广告点击的具体数字,这些模型公布出来对大家的学习还是很有好处的。希望下次主办方能准备相关话题,这样在Open Space时,讲师可提前做一些准备,为听众做更针对性的解答。

会上,一些参会者也通过新浪微博分享了他们的参会感受:

爱新觉罗小牙:和百度比,我们还处于石器时代。。

豪_CHANGE: @夏粉_百度夏老师,您能讲下这个计算广告的数十亿特征具体就包括哪些吗。如何得到的?

范斌_#百度技术沙龙#提前将近一个小时来,人都快满了。大家拿着iPhone,iPad,kindle。看书,学习,讨论。程序员都这德行。

有关百度技术沙龙的更多信息,可以通过新浪微博关注@百度技术沙龙,或者关注InfoQ官方微信:infoqchina,InfoQ上也总结了过往所有百度技术沙龙的演讲视频和资料等,感兴趣的读者可以直接浏览内容

特别提示:第48期百度技术沙龙将在4月19日,周六,在北京车库咖啡举行,主题为《大规模分布式存储实战解析》,欢迎关注@InfoQ@百度技术沙龙获取后续的活动信息。

时间: 2024-10-13 12:44:41

百度技术沙龙第48期回顾:大规模机器学习(含资料下载)的相关文章

百度技术沙龙 - 广告数据上的大规模机器学习

上个月,参加了百度技术沙龙, 夏粉的<广告数据上的大规模机器学习>讲座介绍了大规模机器学习中的若干重要问题.遗憾的是,百度的相关算法没有公开的论文. 1.  数据处理 目标: 获取信息, 去除噪音 机器学习技术点: 选择对点击概率分布 预估足够多样本 解决方法: a. 不可见和不完整样本过滤; b. 样本采样; c. 异常样本检测 算法:a. 百度 SA算法; b. Google (KDD 2013) 2. 特征处理 问题:大量的类型型特征和ont-hot特征导致海量特征 目标: 选择尽可能少

百度技术沙龙 - 大数据场景下主题检索应用

第48期百度技术沙龙上的<大数据场景下主题检索应用>讲座介绍了很多训练大规模主题模型的技术细节.讲座回来后,我粗略整理了下讲座上涉及的主题模型和训练大规模模型相关的资料和文献. 1. 主题模型的发展历史 a. 布尔模型 Boolean model b. 向量空间模型 VSM (Vector space model) c. 潜在语义索引 LSI (Latent semantics index) - 首先作为一种降维技术, 对doc-word矩阵进行SVD分解 d. 概率潜在语义分析pLSA e.

百度技术沙龙&amp;InfoQ笔记

百度技术沙龙&InfoQ笔记 by 伍雪颖 百度技术沙龙&InfoQ 弹窗 1,弹窗影响是可控的,白文件的弹窗 防御,是为了拦截未知的病毒木马,状态,病毒库,未知行为,采用的api, 黑白的集合样本,加快状态,目标,归类 3个监控点:对api的拦截,数据挖掘来的api,监控点,危险行为,高危和低危,提取特征,软件推广,沙龙广告,改变签名 安装包,释放文件,云防御模式 对抗(安全), 第一部分是一个做技术哥们讲的 云端处理,速度比较快,云规则,云防御模式 绿盟,张彦 2000,系统集成,企业

第四十期百度技术沙龙笔记整理

本期的技术沙龙主题内容是LBS技术,虽然LBS应用最近这两年在业内炒得风生水起,但是我感觉离广泛应用好像还是有一定距离. 本期的讲座主讲讲师是百度定位服务负责人张传明.陌陌的CTO李志威.北邮邓中亮教授,覆盖了技术实现原理.实际应用经验.学术发展前沿三个方面. 张传明工程师的讲座分析了目前手机定位技术现状和使用前景,以及百度定位服务API在解决目前定位技术的弱势方面所做的工作和一些业界目前解决这方面问题的先进做法: 目前的定位技术从数据源方面主要由两个方面:基于GPS定位导航卫星技术的定位和基于

三十三期百度技术沙龙笔记整理

此次技术沙龙是由百度的高级架构师陈天健和豆瓣首席科学家王守崑为主讲,大主题是推荐系统. 陈天健的主要话题是百度推荐引擎计算平台架构中的流式计算架构.中间有一种因为几个短信有点错过,等视频出来再听一遍,这个笔记基本没啥整理,主要是个备档,感兴趣的同学可以直接去InfoQ看视频.下面把记的笔记抄上来: NLP---当前分析热点: 传统架构以Hadoop为主,流式计算加速数据处理: QueueWorker: 流式计算系统,拓扑S4.DAG: 多样索引 及时计算获得用户访问成倍增长. 整个工程引擎化--

百度技术沙龙-自然语言处理技术及应用笔记整理

第一场由百度这方面的大拿吴华分享: NLP技术支持大多数百度产品 搜索引擎从关键词到语义理解搜索 应用未来趋势:1.知识语义搜索;2.对话式搜索;3.主动推荐,不搜即得;4.精准个性化服务. NLP的挑战:需求识别.知识挖掘.用户引导.结果组织和展现. 理解文本的目标是理解用户.用户建模.用户行为预测 百度翻译免费API 实体名词挖掘:分类.需求.ontology建设 query理解. DNN用于软聚类 Parser技术用于复杂query理解. 基于shift-reduce的依存决策分析算法--

时速云企业级容器PaaS技术沙龙 第九期【深圳站】

Docker容器技术的出现改变了企业应用从开发.构建到发布.运行的整个生命周期,而Kubernetes经历近4年的发展也已成为容器集群管理领域的事实标准,基于容器 + Kubernetes 的新型 PaaS 逐渐成为云计算的主流. 越来越多的企业开始使用基于 Kubernetes 技术构建企业级容器 PaaS 平台,从而加速业务应用的交付.提高运维效率.实现微服务架构升级.可以预见,未来几年企业级容器PaaS将会迎来爆发式增长. 时速云是国内首个基于Kubernetes 的企业级容器PaaS平台

迅雷链技术沙龙第一站:百万级TPS是怎样炼成的

9月15日下午,由迅雷集团主办的链创未来?迅雷链技术沙龙在北京举行,作为此系列技术沙龙的首期活动,本期邀请了来自迅雷链开放平台产品负责人.研发负责人.研发工程师.HGBC等企业的技术大咖,为区块链爱好者和开发者分享智能合约开发与DAPP实践经验等干货满满的区块链技术知识,上百名开发者大牛在现场自由交流,就区块链技术进行了深入探讨. 张慧勇:迅雷链同构多链框架解析,揭开迅雷链神秘面纱 图:迅雷链开放平台研发负责人 张慧勇 迅雷链开放平台研发负责人张慧勇率先揭开迅雷链的神秘面纱,为现场的开发者解析迅

【精彩回顾】第二届微医前端技术沙龙(附PPT下载)

5 月 25 日,以「无界」为主题的第二届微医前端技术沙龙成功举办.本届沙龙的演讲题目涵盖了前端技术几个主要的应用场景,包括服务端.桌面端以及跨平台的开发.最近几年前端技术发展非常快,各种可以提高开发效率的新技术和框架层出不穷,让原来的前端工程师蜕变成了新一代的全端工程师,技术之间的界限被打破,相互碰撞.融合和进化. 活动伊始,本届沙龙活动主持人,来自用户技术部的前端团队负责人洪波对远道而来的微医外部30多家公司的同行和100多位来自内部各个部门的同事表示了欢迎,感谢大家挤出宝贵的周末时间来参加