百度技术沙龙 - 大数据场景下主题检索应用

第48期百度技术沙龙上的《大数据场景下主题检索应用》讲座介绍了很多训练大规模主题模型的技术细节。讲座回来后,我粗略整理了下讲座上涉及的主题模型和训练大规模模型相关的资料和文献。

1. 主题模型的发展历史

a. 布尔模型 Boolean model

b. 向量空间模型 VSM (Vector space model)

c. 潜在语义索引 LSI (Latent semantics index) - 首先作为一种降维技术, 对doc-word矩阵进行SVD分解

d. 概率潜在语义分析pLSA

e. LDA(Latent Dirichlet Allocation)

2. 介绍LDA和大规模模型训练的参考文献

a. Introduction to Probabilistic Topic Models (David M. Blei, Princeton University)

b. Gibbs Sampling for the uninitiated (Philip Resnik, Eric Hardisty)

c. Parameter estimation for text analysis (Gregor Heinrich)

d. LDA数学八卦 (rickjin)

e. Distributed Gibbs Sampling of Latent Topic Models: The Gritty Details (Yi Wang)

f. A Practical Algorithm for Topic Modeling with Provable Guarantees

g. A Fast And Scalable Topic model Toolbox

百度技术沙龙 - 大数据场景下主题检索应用,布布扣,bubuko.com

时间: 2024-10-15 18:16:52

百度技术沙龙 - 大数据场景下主题检索应用的相关文章

百度技术沙龙 - 广告数据上的大规模机器学习

上个月,参加了百度技术沙龙, 夏粉的<广告数据上的大规模机器学习>讲座介绍了大规模机器学习中的若干重要问题.遗憾的是,百度的相关算法没有公开的论文. 1.  数据处理 目标: 获取信息, 去除噪音 机器学习技术点: 选择对点击概率分布 预估足够多样本 解决方法: a. 不可见和不完整样本过滤; b. 样本采样; c. 异常样本检测 算法:a. 百度 SA算法; b. Google (KDD 2013) 2. 特征处理 问题:大量的类型型特征和ont-hot特征导致海量特征 目标: 选择尽可能少

面试官:怎么设计大文件、大数据场景下的传输加密方案?

某年某月某一天,冷冽寒风中,姚小毛走进了某家公司,开始了新一轮的面试. 一阵寒暄后. 面试官:"你好,看你的项目经验中有做过数据加密的工作,你是使用什么加密算法加解密的?" 姚小毛:"嗯,我是采用的 非对称加密 + 对称加密 的混合加密算法." 面试官:"为什么要用混合加密的方式?" 姚小毛:"非对称加密跟对称加密都各有优缺点. 非对称安全性好点,由发送方跟接收方分别持有公钥.私钥. 但是缺点是在做大数据量的加密传输时,传输速度会比较慢

百度技术沙龙第48期回顾:大规模机器学习(含资料下载)

原文:http://www.infoq.com/cn/news/2014/03/baidu-salon48-summary 2014年3月15日,在由@百度主办.@InfoQ负责策划组织和实施的第48期百度技术沙龙活动上,来自百度联盟大数据机器学习技术负责人夏粉,和搜狗精准广告研发部技术经理王晓博,各自分享了其在机器学习方面的实战经验.他们的话题涉及“广告数据上的大规模机器学习”和“大数据场景下主题检索应用”这两个方面,本文将对讲师各自的分享做简单的回顾,同时提供相关资料的下载. 主题一:广告数

大数据时代下是数据思维重要,还是相应技术重要?

技术做到一定程度,逐步发现自己的瓶颈.不由得开始思考这一方面的问题!到底大数据时代下,是相应的数据分析技术重要,还是相应数据思维重要? 先来说数据思维吧!什么是大数据思维,个人感觉应该是互联网思维的一种.是考虑到全面,而不是局部.是考虑到多维,而不是单一维度.不是靠拍脑门做决定,而是让数据说话,用数据做决策. 先说第一点,考虑全面,而不是局部.众所周知,移动互联网催生了大数据的产生.每一个人每一天通过手机能够的数据总和会是一个巨大的量.而通过这些非结构化的数据,我们首先面对的是如何处理这些数据,

看大数据时代下的IT架构(1)图片服务器之演进史

        柯南君的公司最近产品即将上线,由于产品业务对图片的需求与日俱增,花样百出,与此同时,在大数据时代,大流量的冲击下,对图片服务器的压力可想而知,那么今天,柯南君结合互联网的相关热文,加上自己的一点实践经验,与君探讨,与君共勉! 一.图片服务器的重要性 当前,不管哪一家网站(包括 电商行业.O2O行业.互联网行业等),不管哪一种渠道 (包括 web端,APP端甚至一些SNS应用),在大数据时代下,在内容为王的前提下,对图片的需求量越来越大,柯南君的公司是一家O2O公司,也不例外,图片

CSDN专访:大数据时代下的商业存储

原文地址:http://www.csdn.net/article/2014-06-03/2820044-cloud-emc-hadoop 摘要:EMC公司作为全球信息存储及管理产品方面的领先公司,不久前,EMC宣布收购DSSD加强和巩固了其在行业内的领导地位,日前我们有幸采访到EMC中国的张安站,他就大数据.商业存储.Spark等给大家分享了自己的看法. 谈到大数据,张安站认为大数据本质上是两个根本性的问题,一个是数据很大,如何存储?另外一个是数据很大,如何分析?第一个问题,对于存储厂商来说,就

企业大数据平台下数仓建设思路

免费开通大数据服务:https://www.aliyun.com/product/odps 介然(李金波),阿里云高级技术专家,现任阿里云大数据数仓解决方案总架构师.8年以上互联网数据仓库经历,对系统架构.数据架构拥有丰富的实战经验,曾经数据魔方.淘宝指数的数据架构设计专家. 与阿里云大数据数仓结缘 介然之前在一家软件公司给企业客户做软件开发和数仓开发实施,数仓开发和实施都是基于传统的基础架构.2008年加入阿里进入淘宝数据平台部后,他开始接触分布式计算平台Hadoop. 初始时在Hadoop平

大数据浪潮下的前端工程师

流形 链接来源 马云曾经说过『人类正从IT时代走向DT时代』. 正如他说言,今天几乎所有的互联网公司背后都有一支规模庞大的数据团队和一整套数据解决方案作决策, 这个时代已经不是只有硅谷巨头才玩数据的时代,是人人都在依赖着数据生存,可以说如今社会数据价值已经被推到前所未有的高度. 我作为一名前端工程师在阿里巴巴数据团队工作多年,深入了解数据生产加工链路与产品化.我们这群前端是与界面最近的工程师们, 似乎与数据离得很远,对于我们来说与数据有些怎样连接呢. 完整数据链路 首先,我用直观的一张图绘制出数

探析大数据需求下的分布式数据库

一.前言 大数据技术从诞生到现在,已经经历了十几个年头.市场上早已不断有公司或机构,给广大金融从业者"洗脑"大数据未来的美好前景与趋势.随着用户对大数据理念与技术的不断深入了解,人们已经开始从理论探索转向对场景落地的寻找,让大数据在企业中落地并开花结果. 从大数据的管理和应用方向集中在两个领域.第一,大数据分析相关,针对海量数据的挖掘.复杂的分析计算:第二,在线数据操作,包括传统交易型操作以及海量数据的实时访问.大数据高并发查询操作.用户根据业务场景以及对数据处理结果的期望选择不同的大