今日头条核心技术“个性推荐算法”揭秘

今日头条核心技术“个性推荐算法”揭秘

最近面试华兴资本, 他们比较关注今日头条算法的实现, 今天特转载网上 今日头条算法解密

  【IT168 评论】互联网给用户带来了大量的信息,满足了用户在信息时代对信息的需求,也使得用户在面对大量信息时无法从中获得对自己真正有用的那部分信息,对信息的使用效率反而降低了,而通常解决
  1月20日,新生代移动互联网企业今日头条在北京国家会议中心举办了“算数·年度数据发布会”,数据发布会的主题名为“算数”,实际上指的是“算法”与“数据”。

  众所周知,今日头条是

  那么今日头条是怎么做到为每一个用户按兴趣精准推荐新闻的呢?在发布会上,今日头条的技术副总裁杨震原给我们揭秘了今日头条的个性化推荐核心“算法”。

  今日头条的个性化推荐算法原理

  如上图,有3篇文章,让3个用户投票(注:这3个用户是一类人,有相同属性(喜好和偏好)),那第4个用户应该被系统推荐的文章是那篇呢?第4个用户与前3个用户都是一类人,答案显
  没错,今日头条的个性化推荐算法原理
  今日头条是如何来划分人群和文章

  搞技术的朋友都知道,
  上面那个例子只是很小的人群,但是现实生活中不会有这样小的人群,而且太小的人群通过推荐投票的方式也很难推荐出很精细的内容,只能推荐出一些热门内容,那今日头条是如何来划分人群?

  我们假定上图这
  根据人群不同维度,我们可以细分到一个合理的力度。特别需要注意的是:在细分的领域里面投票数既不要太多,但也不要太少,因为太多没有个性化,仅是一个大众关心的话题而已,而投票数太少又没有统计意义,支持度就低了。

  人群特征可以是阅读姓名,年龄,地域,职业等等。同理,文章也是类似的,文章有提到哪些名人,文章发布的时间,文章所属的地区等等,也都有很多特性,这些都是可以去组合起来。

  今日头条是怎样判断一个人属于怎样的人群

  判断一个人属于怎样的人群相对简单。比如地域,用户的手机在什么区域,就可以认为用户是什么地域的;比如说用户兴趣,可以根据用户的阅读习惯去判断,用户会经常去看科技的文章,那就可以判断用户属于科技的人群;再比如说用户的好友关系,用户在今日头条上面注册了,用户的好友都是娱乐圈的人,则该用户很有可能也是娱乐圈的人;所以通过用户在今日头条上行为,以及用户客观的地理位置信息,就能判断用户到底属于一个什么样的人群。

  今日头条的个性推荐算法公式

  精准推荐最难的不是划分人群,也不是判断用户人群归属,更不是文章属性判断,一个人可以属于多个人群,也有多个文章候选,选那个推荐才是最难的。而今日头条的推荐内容是怎么算出来的呢?

  通过上图的计算公式:W1*候选1的投票率+W2*候选2的投票率+W3候选3的投票率+……=最高分,最后能计算出一个得分,按得分的高低来排序,就可以得到推荐文章的一个侯选,这个过程实际上是一个比较简单的算法,而这在今日头条内部叫逻辑回归。

  总的来说,个性化推荐技术本身并不神秘,归根到底推荐算法关键是还在于对海量用户行为的数据分析与挖掘,也许各家算法略有不同,但最终目的都是殊途同归,为实现最精准的内容推荐而努力中。

  如果你看的还不过瘾,欲知更多(阿里、腾讯、网易、58同城、豆瓣等)知名站点推荐系统技术内容,请点击(牛逼站是怎样炼成的?-推荐系统篇

时间: 2024-08-26 16:20:10

今日头条核心技术“个性推荐算法”揭秘的相关文章

用今日头条的方法推荐公开课

做了个APP,名字很土,叫<学啥>.用今日头条的方法推荐公开课.服务端是阿里云CentOS7+Play!+Scala+Docker+Appache Mahout, 爬虫是Scrapy,做了安卓客户端和简易的iOS客户端.代码开源在:https://github.com/foamliu/hackathon-ocw 下边是服务端框架,客户端通过REST API与服务端通信,服务端为用户推荐适合的公开课视频,后台定时任务负责训练模型. 安卓的效果是这样滴: 现在有空时我可以用它来学点东西,但还是很多

蚂蚁金服核心技术:百亿特征实时推荐算法揭秘

本文来自蚂蚁金服人工智能部认知计算组的基础算法团队,文章提出一整套创新算法与架构,通过对TensorFlow底层的弹性改造,解决了在线学习的弹性特征伸缩和稳定性问题,并以GroupLasso和特征在线频次过滤等自研算法优化了模型稀疏性,在支付宝核心推荐业务获得了uvctr的显著提升,并较大地提升了链路效率. 0.综述 在线学习(Online learning)由于能捕捉用户的动态行为,实现模型快速自适应,进而成为提升推荐系统性能的重要工具.然而它对链路和模型的稳定性,训练系统的性能都提出了很高的

今日头条算法

Reference: http://blog.csdn.net/u014114990/article/details/48165781 日头条涉及到算法:(1)今日头条服务器1000台左右,通过代码实现的爬虫功能,在其他传媒的网站和门户上抓取各种信息.如果在网站上抓取到纸媒的内容,优先从纸媒门户上抓取信息(2)抓取信息后,对有价值的信息通过算法进行分析归类.(3)推送到有感兴趣的今日头条客户端(4)用户注册或登录(新浪微博.QQ.人人网)时,通过数据挖掘分析,对用户进行分析,推荐感兴趣的信息.(

三俗化的今日头条为何被整改?原始设定带来的必然败局

对于今日头条来说,这个元旦节过的有点不平静. 据新华社报道,针对今日头条.凤凰新闻手机客户端持续传播×××低俗信息.违规提供互联网新闻信息服务等问题,国家互联网信息办公室29日指导北京市网信办分别约谈两家企业负责人,责令企业立即停止违法违规行为--今日头条手机客户端"推荐""热点""社会""图片""问答""财经"等6个频道自2017年12月29日18时至12月30日18时暂停更新24小时

今日头条能“无限发文”了!自媒体可以体面地去死了

当你可以不受发文限制的发东西时,你是不停地写.不停地发?还是不断地发呢? 从年前的各种麻烦中还没脱身的今日头条,在年后开始了不断的变阵,除了前些日子推出的旗下头条号.西瓜视频.内涵段子.悟空问答的用户帐号互通外,21日,它有打出了一记重磅--<关于简化头条号注册流程并取消新手期的公告>. 看标题,似乎没什么,尤其对于早就渡过新手期的自媒体们来说,可其有一段话很重要: 所有头条号每天可发布的图文.视频等都将不再有数量限制. 也就是说,以后在头条号上发文,你可以想发多少就发多少了. 这是相当强大的

[新浪]今日头条被高估了吗?

今日头条被高估了吗? 欢迎关注"创事记"的微信订阅号:sinachuangshiji 文/华生 来源:砺石商业评论(ID:libusiness) 砺石导言 对于今日头条这样一家缺乏核心竞争力,并且始终头顶较大法律与道德风险的企业,750亿美金的市值是否被高估了? 近日,陆续有自媒体传出今日头条母公司字节跳动已完成不低于25亿美元金额的Pre-IPO融资消息,投前估值达到750亿美元. 今日头条在今年春节后曾以500亿美金的估值向市场询价,但因遭遇监管风波而融资遇冷,后来据知情人士透露,

资深架构师首次公开揭秘:今日头条推荐算法原理

今天,算法分发已经是信息平台.搜索引擎.浏览器.社交软件等几乎所有软件的标配,但同时,算法也开始面临质疑.挑战和误解. 网友整理的各大平台推荐算法(搞笑版) 今日头条的推荐算法,从 2012 年 9 月第一版开发运行至今,已经经过四次大的调整和修改. 今日头条委托资深算法架构师曹欢欢博士,公开今日头条的算法原理,以推动整个行业问诊算法.建言算法:通过让算法透明,来消除各界对算法的误解,并逐步推动整个行业让算法更好的造福社会. ▲ 3 分钟了解今日头条推荐算法原理 本次分享主要围绕五个方面介绍今日

【PPT详解】曹欢欢:今日头条算法原理

[PPT详解]曹欢欢:今日头条算法原理 悟空智能科技 4月8日 公众号后台回复:"区块链",获取区块链报告 公众号后台回复:"sq",进入区块链分享社群 热文推荐: 1000位专家推荐,20本区块链必读书籍(附PDF) 中国首个区块链标准<区块链参考架构>发布 今天,算法分发已经是信息平台.搜索引擎.浏览器.社交软件等几乎所有软件的标配,但同时,算法也开始面临质疑.挑战和误解.今日头条的推荐算法,从2012年9月第一版开发运行至今,已经经过四次大的调整和

使用scrapy爬虫,爬取今日头条首页推荐新闻(scrapy+selenium+PhantomJS)

爬取今日头条https://www.toutiao.com/首页推荐的新闻,打开网址得到如下界面 查看源代码你会发现 全是js代码,说明今日头条的内容是通过js动态生成的. 用火狐浏览器F12查看得知 得到了今日头条的推荐新闻的接口地址:https://www.toutiao.com/api/pc/focus/ 单独访问这个地址得到 此接口得到的数据格式为json数据 我们用scrapy+selenium+PhantomJS的方式获取今日头条推荐的内容 下面是是scrapy中最核心的代码,位于s