今日头条算法

Reference: http://blog.csdn.net/u014114990/article/details/48165781

日头条涉及到算法:
(1)今日头条服务器1000台左右,通过代码实现的爬虫功能,在其他传媒的网站和门户上抓取各种信息。如果在网站上抓取到纸媒的内容,优先从纸媒门户上抓取信息
(2)抓取信息后,对有价值的信息通过算法进行分析归类。
(3)推送到有感兴趣的今日头条客户端
(4)用户注册或登录(新浪微博、QQ、人人网)时,通过数据挖掘分析,对用户进行分析,推荐感兴趣的信息。
(5)推送后,根据用户的体验(阅读时间、评论)判断信息是否符合客户需求,再进一步调整推送信息内容。
(6)敏感信息审查

(7)网页转码,手机信息打开纸媒或网站信息,因附带有大量广告或样式信息,下载速度很慢,影响用户体验,转码后保留内容资源,格式更适合阅读。

今日头条核心技术“个性推荐算法”揭秘

2015年01月22日00:00 it168网站原创 作者:覃里 编辑:覃里 查看全文

赞(3)评论(2) 分享

标签: 互联网 , 大数据

  【IT168 评论】互联网给用户带来了大量的信息,满足了用户在信息时代对信息的需求,也使得用户在面对大量信息时无法从中获得对自己真正有用的那部分信息,对信息的使用效率反而降低了,而通常解决这个问题最常规的办法是推荐系统,推荐系统能有效帮助用户快速发现感兴趣和高质量的信息,提升用户体验,增加用户使用产品时间,并有效减少用户浏览到重复或者厌恶的信息带来的不利影响。通常推荐系统越精准,用户体验就越好,用户停留时间也会越长,也越容易留住用户。

  1月20日,新生代移动互联网企业今日头条在北京国家会议中心举办了“算数·年度数据发布会”,数据发布会的主题名为“算数”,实际上指的是“算法”与“数据”。

  众所周知,今日头条是个个性化的新闻推荐引擎。在今日头条CEO张一鸣看来,算法是《今日头条》这款兴趣推荐搜索引擎应用的核心,这也是与传统媒体最本质的区别。今日头条之所以能够非常懂用户,精准推荐出用户所喜好的新闻,完全得益于算法。而正是精准推荐,使得今日头条在短短两年多的时间内拥有了2.2亿用户,每天有超过2000万用户在今日头条上阅读自己感兴趣的文章。

  那么今日头条是怎么做到为每一个用户按兴趣精准推荐新闻的呢?在发布会上,今日头条的技术副总裁杨震原给我们揭秘了今日头条的个性化推荐核心“算法”。

  今日头条的个性化推荐算法原理

  如上图,有3篇文章,让3个用户投票(注:这3个用户是一类人,有相同属性(喜好和偏好)),那第4个用户应该被系统推荐的文章是那篇呢?第4个用户与前3个用户都是一类人,答案显而易见是第一篇文章。

  没错,今日头条的个性化推荐算法原理就是基于投票的方法,其核心理念就是投票,每个用户一票,喜欢哪一篇文章就把票投给这篇文章,经过统计,最后得到结果很可能是在这个人群下最好的文章,并把这篇文章推荐给同人群用户过程就是个性化推荐,实际上个性化推荐并不是机器给用户推荐,而是用户之间在互相推荐,看起来似乎很简单,但实际上这需要基于海量的用户行为数据挖掘与分析。

  今日头条是如何来划分人群和文章

  搞技术的朋友都知道,内容推荐必须基于受众人群,只有在确定受众人群之后才能确定推荐内容,有的放矢才叫精准推荐。

  上面那个例子只是很小的人群,但是现实生活中不会有这样小的人群,而且太小的人群通过推荐投票的方式也很难推荐出很精细的内容,只能推荐出一些热门内容,那今日头条是如何来划分人群?

  我们假定上图这个人群有8万人,只有两类:一类叫喜欢科技的人群,一类喜欢娱乐的人群,我们先分成两类,每类有4万人,我们又找到另一个维度地域:上海和北京,喜欢科技的人有上海和北京的,喜欢娱乐的也有北京和上海的,我们把8万人群分成四组,每组两万,我们再找年龄,30岁以上和以下,我们分成8个人群,每个人群1万人,第1个是喜好科技,位置在北京,年龄30岁以上,这有1万人,我们再以下面的喜欢娱乐,地点上海,人群1万。

  根据人群不同维度,我们可以细分到一个合理的力度。特别需要注意的是:在细分的领域里面投票数既不要太多,但也不要太少,因为太多没有个性化,仅是一个大众关心的话题而已,而投票数太少又没有统计意义,支持度就低了。

  人群特征可以是阅读姓名,年龄,地域,职业等等。同理,文章也是类似的,文章有提到哪些名人,文章发布的时间,文章所属的地区等等,也都有很多特性,这些都是可以去组合起来。

  今日头条是怎样判断一个人属于怎样的人群

  判断一个人属于怎样的人群相对简单。比如地域,用户的手机在什么区域,就可以认为用户是什么地域的;比如说用户兴趣,可以根据用户的阅读习惯去判断,用户会经常去看科技的文章,那就可以判断用户属于科技的人群;再比如说用户的好友关系,用户在今日头条上面注册了,用户的好友都是娱乐圈的人,则该用户很有可能也是娱乐圈的人;所以通过用户在今日头条上行为,以及用户客观的地理位置信息,就能判断用户到底属于一个什么样的人群。

  今日头条的个性推荐算法公式

  精准推荐最难的不是划分人群,也不是判断用户人群归属,更不是文章属性判断,一个人可以属于多个人群,也有多个文章候选,选那个推荐才是最难的。而今日头条的推荐内容是怎么算出来的呢?

  通过上图的计算公式:W1*候选1的投票率+W2*候选2的投票率+W3候选3的投票率+……=最高分,最后能计算出一个得分,按得分的高低来排序,就可以得到推荐文章的一个侯选,这个过程实际上是一个比较简单的算法,而这在今日头条内部叫逻辑回归。

  总的来说,个性化推荐技术本身并不神秘,归根到底推荐算法关键是还在于对海量用户行为的数据分析与挖掘,也许各家算法略有不同,但最终目的都是殊途同归,为实现最精准的内容推荐而努力中。

时间: 2024-10-14 06:10:05

今日头条算法的相关文章

【PPT详解】曹欢欢:今日头条算法原理

[PPT详解]曹欢欢:今日头条算法原理 悟空智能科技 4月8日 公众号后台回复:"区块链",获取区块链报告 公众号后台回复:"sq",进入区块链分享社群 热文推荐: 1000位专家推荐,20本区块链必读书籍(附PDF) 中国首个区块链标准<区块链参考架构>发布 今天,算法分发已经是信息平台.搜索引擎.浏览器.社交软件等几乎所有软件的标配,但同时,算法也开始面临质疑.挑战和误解.今日头条的推荐算法,从2012年9月第一版开发运行至今,已经经过四次大的调整和

今日头条核心技术“个性推荐算法”揭秘

今日头条核心技术"个性推荐算法"揭秘 最近面试华兴资本, 他们比较关注今日头条算法的实现, 今天特转载网上 今日头条算法解密 [IT168 评论]互联网给用户带来了大量的信息,满足了用户在信息时代对信息的需求,也使得用户在面对大量信息时无法从中获得对自己真正有用的那部分信息,对信息的使用效率反而降低了,而通常解决 1月20日,新生代移动互联网企业今日头条在北京国家会议中心举办了"算数·年度数据发布会",数据发布会的主题名为"算数",实际上指的是&

资深架构师首次公开揭秘:今日头条推荐算法原理

今天,算法分发已经是信息平台.搜索引擎.浏览器.社交软件等几乎所有软件的标配,但同时,算法也开始面临质疑.挑战和误解. 网友整理的各大平台推荐算法(搞笑版) 今日头条的推荐算法,从 2012 年 9 月第一版开发运行至今,已经经过四次大的调整和修改. 今日头条委托资深算法架构师曹欢欢博士,公开今日头条的算法原理,以推动整个行业问诊算法.建言算法:通过让算法透明,来消除各界对算法的误解,并逐步推动整个行业让算法更好的造福社会. ▲ 3 分钟了解今日头条推荐算法原理 本次分享主要围绕五个方面介绍今日

给定二维平面整数点集输出“最大点集”算法(今日头条面试题)

引子 最近自己的独立游戏上线了,算是了却了一桩心愿.接下来还是想找一份工作继续干,创业的事有缘再说. 找工作之前,总是要浏览一些实战题目,热热身嘛.通过搜索引擎,搜到了今日头条的一道面试题. 题目 P为给定的二维平面整数点集.定义 P 中某点x,如果x满足 P 中任意点都不在 x 的右上方区域内(横纵坐标都大于x),则称其为"最大的".求出所有"最大的"点的集合.(所有点的横坐标和纵坐标都不重复, 坐标轴范围在[0, 1e9) 内) 如下图:实心点为满足条件的点的集

最全BAT算法面试100题:阿里、百度、腾讯、京东、美团、今日头条

第一:复杂度估算和排序算法(上)1) 时间复杂度和空间复杂度 2)认识对数器 3)冒泡排序 4)选择排序 5)插入排序 6)如何分析递归过程的时间复杂度 7)归并排序 8)小和问题 第二:复杂度估算和排序算法(下)1)荷兰国旗问题 2)随机快速排序 3)堆结构与堆排序 4)认识排序算法的稳定性 5)认识比较器 6)桶排序 7)计数排序 8)基数排序 9)数组排序后的最大差值问题 10)排序算法在工程中的应用 第三:章栈.队列.链表.数组和矩阵结构1)栈结构 2)队列结构 3)链表结构 4)数组结

知乎上线“明日头条”,亮剑直指今日头条?

4月1日凌晨,知乎悄然上线了"资讯类内容",并对外宣称发布了"明日头条",意图向移动资讯开始发起进攻.来自知乎内部员工发布的<知乎重磅发布[明日头条],直接促使领结婚证免费>愚人文章中煞有介事地称:"知乎现在正式重磅发布新功能--明日头条,这个划时代新功能将颠覆性地为知乎用户带来全新的内容体验,通过高质量内容的聚合,知乎希望,给世界增加一点颜值." 知乎在这个时候突然推出的"明日头条",着实让人有些惊讶,难道知乎真

web前端整套面试题(二)--今日头条面试题

12道单选,7道不定项选择,2道编程题 一.单选(12题) 1.[单选题]在HTML中,( )可以在网页上通过链接直接打开邮件客户端发送邮件. A.<a href=”telnet:[email protected]”>发送邮件</a> B.<a href=”mail:[email protected]”>发送邮件</a> C.<a href=”mailto:[email protected]”>发送邮件</a> D.<a hre

京条计划,今日头条不仅是京东的又一流量入口

9月27日,京东与今日头条宣布了战略合作."京条计划"的合作方式在业界掀起了一轮热议.本质上说,一个有流量需要更多的变现手段,一个需要更多的流量,来进一步提升消费转化,二者之间是互惠互利合作,但因是两大巨头可能会对市场构成影响的合作,而且在具体执行层面上又有突破创新,才引起了业界的密切关注和讨论. 电商与流量平台合作是趋势,京条计划是京东流量扩充的其中一步 电商与流量平台合作是趋势,在京东与今日头条建立合作关系之前,阿里投资微博,京东引入腾讯投资,是从流量上对彼此电商业务的补充,又是双

今日头条估值100亿美元,变身资讯APP巨头

[阅读原文] 作者:茱莉叶 身价估值100亿美元,攀升资讯APP寡头 手机APP今日头条母公司北京字节跳动科技有限公司考虑在最新一轮融资中筹资约10亿美元,包括新融资在内,其新估值有望达100亿美元.100亿美元的估值与微博的市值相当,按照周二46.67美元的收盘价计算,新浪微博总市值99.66亿美元.2014年6月,该公司估值仅为5亿美元,意味着其在两年内估值增长20倍. 北京字节跳动科技有限公司成立于2012年,主要产品是今日头条APP,通过海量信息采集.深度数据挖掘和用户行为分析,为用户智