三十三期百度技术沙龙笔记整理

此次技术沙龙是由百度的高级架构师陈天健和豆瓣首席科学家王守崑为主讲,大主题是推荐系统。

陈天健的主要话题是百度推荐引擎计算平台架构中的流式计算架构。中间有一种因为几个短信有点错过,等视频出来再听一遍,这个笔记基本没啥整理,主要是个备档,感兴趣的同学可以直接去InfoQ看视频。下面把记的笔记抄上来:

NLP---当前分析热点;

传统架构以Hadoop为主,流式计算加速数据处理;

QueueWorker;

流式计算系统,拓扑S4、DAG;

多样索引

及时计算获得用户访问成倍增长。

整个工程引擎化----这部分需要重听

推荐系统的很多东西需要验证改进

百度的推荐引擎计算平台可能会公开服务

下面是豆瓣首席科学家王守崑的部分,他的主要是围绕算法本身的选择。

算法复杂度选择

增量更新

算法根据用户群、产品、计算框架改变

早期用户群和大众用户群有所区别

豆瓣的推荐存在一个item饱和期-----这个只是我现场想到的,非演讲内容。

缺失值数据也有其作用

矩阵分解和生成模型

文本分析:生成模型、隐马模型、高斯混合模型、贝叶斯模型那个、LDA、RBM。

条目增长趋于稳定

长期指标的改进靠人

从传统媒体信息经济走向现代App体验经济

信息逐渐私有和封闭,要么是平台,要么是平台的一部分。

时间: 2024-12-12 20:00:03

三十三期百度技术沙龙笔记整理的相关文章

第四十期百度技术沙龙笔记整理

本期的技术沙龙主题内容是LBS技术,虽然LBS应用最近这两年在业内炒得风生水起,但是我感觉离广泛应用好像还是有一定距离. 本期的讲座主讲讲师是百度定位服务负责人张传明.陌陌的CTO李志威.北邮邓中亮教授,覆盖了技术实现原理.实际应用经验.学术发展前沿三个方面. 张传明工程师的讲座分析了目前手机定位技术现状和使用前景,以及百度定位服务API在解决目前定位技术的弱势方面所做的工作和一些业界目前解决这方面问题的先进做法: 目前的定位技术从数据源方面主要由两个方面:基于GPS定位导航卫星技术的定位和基于

百度技术沙龙&InfoQ笔记

百度技术沙龙&InfoQ笔记 by 伍雪颖 百度技术沙龙&InfoQ 弹窗 1,弹窗影响是可控的,白文件的弹窗 防御,是为了拦截未知的病毒木马,状态,病毒库,未知行为,采用的api, 黑白的集合样本,加快状态,目标,归类 3个监控点:对api的拦截,数据挖掘来的api,监控点,危险行为,高危和低危,提取特征,软件推广,沙龙广告,改变签名 安装包,释放文件,云防御模式 对抗(安全), 第一部分是一个做技术哥们讲的 云端处理,速度比较快,云规则,云防御模式 绿盟,张彦 2000,系统集成,企业

百度技术沙龙 - 大数据场景下主题检索应用

第48期百度技术沙龙上的<大数据场景下主题检索应用>讲座介绍了很多训练大规模主题模型的技术细节.讲座回来后,我粗略整理了下讲座上涉及的主题模型和训练大规模模型相关的资料和文献. 1. 主题模型的发展历史 a. 布尔模型 Boolean model b. 向量空间模型 VSM (Vector space model) c. 潜在语义索引 LSI (Latent semantics index) - 首先作为一种降维技术, 对doc-word矩阵进行SVD分解 d. 概率潜在语义分析pLSA e.

百度技术沙龙第48期回顾:大规模机器学习(含资料下载)

原文:http://www.infoq.com/cn/news/2014/03/baidu-salon48-summary 2014年3月15日,在由@百度主办.@InfoQ负责策划组织和实施的第48期百度技术沙龙活动上,来自百度联盟大数据机器学习技术负责人夏粉,和搜狗精准广告研发部技术经理王晓博,各自分享了其在机器学习方面的实战经验.他们的话题涉及“广告数据上的大规模机器学习”和“大数据场景下主题检索应用”这两个方面,本文将对讲师各自的分享做简单的回顾,同时提供相关资料的下载. 主题一:广告数

百度技术沙龙 - 广告数据上的大规模机器学习

上个月,参加了百度技术沙龙, 夏粉的<广告数据上的大规模机器学习>讲座介绍了大规模机器学习中的若干重要问题.遗憾的是,百度的相关算法没有公开的论文. 1.  数据处理 目标: 获取信息, 去除噪音 机器学习技术点: 选择对点击概率分布 预估足够多样本 解决方法: a. 不可见和不完整样本过滤; b. 样本采样; c. 异常样本检测 算法:a. 百度 SA算法; b. Google (KDD 2013) 2. 特征处理 问题:大量的类型型特征和ont-hot特征导致海量特征 目标: 选择尽可能少

OSChina 开源周刊第三十三期 —— Node.js 和 io.js 准备合作!

每周技术抢先看,总有你想要的! 开源资讯 Node.js 和 io.js 准备合作!合久必分,分久必合? Nervana 开源深度学习软件,性能超 Facebook.Nvidia产品 B 站建开源工作组 多 APP 使用其开源项目 Android 新开发技术 Sky:Dart 开发 Android 应用 谷歌红帽及 VMware 宣布支持 CoreOS 容器 Oracle 宣布 Java 7 生命周期终结 Java 9 公布发行计划,明年 9 月发布正式版 IO.js 2.0.0 发布,服务器

OSChina 技术周刊第十三期 —— 每周技术精粹

每周技术抢先看,总有你想要的! 移动开发 [翻译]appcompat v21: 让 Android 5.0 前的设备支持 Material Design... [软件]可直接商用的<动漫之家>APP 开源,基于 CrossApp! [博客]iOS的xmppframework简介 [博客]导入开源库到基于Android Studio构建的项目中 [博客]android studio gradle 配置修改 [博客]更新:通过浏览器直接打开Android应用程序 [资讯]??Android Stu

百度技术沙龙-自然语言处理技术及应用笔记整理

第一场由百度这方面的大拿吴华分享: NLP技术支持大多数百度产品 搜索引擎从关键词到语义理解搜索 应用未来趋势:1.知识语义搜索;2.对话式搜索;3.主动推荐,不搜即得;4.精准个性化服务. NLP的挑战:需求识别.知识挖掘.用户引导.结果组织和展现. 理解文本的目标是理解用户.用户建模.用户行为预测 百度翻译免费API 实体名词挖掘:分类.需求.ontology建设 query理解. DNN用于软聚类 Parser技术用于复杂query理解. 基于shift-reduce的依存决策分析算法--

分布式技术追踪 2017年第三十三期

分布式系统实践 1. 生活中的Paxos,原来你我都在使用--对Paxos生活化的解读 http://hedengcheng.com/?p=970 摘要: 很通俗的介绍Paxos的文章, 推荐大家看看. 2. 一文读懂Apache Kudu http://dwz.cn/6o5asK 摘要: 关于Kudu的文章之前也分享过, 这篇文章帮助大家回顾Kudu的设计思路和理念. 微服务技术 1. 为什么Google上十亿行代码都放在同一个仓库里? http://dwz.cn/6oy3SK 摘要: 相对于