Netflix是如何向4000万用户精准推荐电影的

虎嗅注:本文来自爱范儿网,虎嗅进行了相关编辑。在信息爆炸的时代,智能推荐应时而生。内容提供商能够对用户的爱好做出更为细致的分析,从而做出更加个性化的推荐。Atlantic网站的Alexis C. Madrigal通过对Netflix影片分类的深入分析以及采访Netflix产品副总裁,揭示了Netflix影视推荐背后的真相。

外界的解读:语法

Netflix 推荐影片的时候,会给出一个非常细致的类型,或者说是一种“微类型”。Alexis 想要整理出一份完整的微类型列表。由于Netflix的微类型多得离谱,他不得不借助于自动处理软件。在计算机连续运作一天之后,他看到了Netflix 微类型的数量:76897个。这些微类型是由一些基本要素构成的,基本语法是这样:

  

地区+形容词+类型(名词)+基于……+……为背景+来自……+关于……+从 X 岁到 Y 岁

(Region + Adjectives + Noun Genre + Based On… + Set In… + From the… + About… + For Age X to Y)

  

当然,有些微类型是不符合上述语法的,比如“有强势女主角”和“适合无可救药的浪漫主义者”。

在 同事Ian Bogost 的建议下,Alexis还编写了一个类型生成器,试图理解Netflix的算法究竟是什么样子的。不过,他还是感觉没有看到全貌。于是,他联系了 Netflix,并见到了公司的产品副总裁Todd Yellin,那个创建了 Netflix 推荐系统的人。

内部的解答:内容撕裂、量子理论

在接受采访的时候,Todd Yellin说,他早就等着人们来问这个问题了。为所有的电影加上标签,正是他的主意,而他还自己写了一张24页的文档,讲述加标签的方法。他为早期的一些电影加过标签,而且主导了整个系统的创建过程。

“我的第一个任务是:把内容撕裂开来!”他说。

  

2006 年,Yellin组织了十几个工程师,花费数月时间编写一份名为“Netflix 量子理论”的文档。当时,他把组成影片的基本元素称作“量子”。如今,他更喜欢“微标签”的说法,因为现在看来,“量子理论”是一个自命不凡的名字。

  

这 份文档描述了为影片各种层面加标签的方法,涉及影片结尾、主角的“社会接受程度”等等方面。标签是标量的,从1到5,就是说,所有的影片都有一个“浪漫程 度”的标识,而不仅仅是那些表明是“浪漫片”的电影。每个电影的结局都有打分,从幸福到悲伤。每个情节都有标签。主角的工作有标签。影片的地点有标签。

  

Netflix的工程师以“微标签”为基础,创造了一种语法,来生成各种类型。这是一种人工和机器算法的结合。Netflix 的做法,与 Pandora 的音乐基金组计划有些类似,但是 Netflix 不仅仅展示给你喜欢的内容,还能够对其进行文字描述。

  

这 些标签数据不仅仅用来生成类型,也用来增加推荐的个性化程度。如果你喜欢动作冒险类电影,并且浪漫程度比较高的,Netflix 可以推荐给你。“我们将对影片中的浪漫程度做出标注。我们不会告诉你它有多浪漫,但是我们会推荐它,”Yellin 说,“你会看到动作场面,里面的浪漫程度如何,那取决于我们对你的了解。”

算法的哲学思考:是失误也是特色

在采访结束之前,Alexis 向Yellin展示了一个有趣的图表。Netflix上最受欢迎的演员排名中,第一名的是Raymond Burr,50 年代电视剧Perry Mason的主演,而第七名的是Barbara Hale,在剧中扮演主演的秘书。为什么这两个人能够超过梅丽尔·斯特里普、塞缪尔·杰克逊、尼古拉斯·凯奇和肖恩·康纳利?

  

这是一个谜题。即使是Yellin也搞不懂,为什么他们的名字出现在那么多的“微类型”中。这是无法用逻辑来解释的问题。

  

“让我们做些哲学思考吧。在人类社会中,生命由于意外而变得有趣。”他说,“当你把复杂的东西添加到机器的世界时,你也在添加自己无法想象的意外。Perry Mason就会发生。这些机器中的鬼魂,经常是复杂带来的副产品。有时候我们称它为失误,有时候我们称之为特色。”

文章为作者独立观点,不代表虎嗅网立场

转自 : http://www.huxiu.com/article/25983/1.html

Netflix是如何向4000万用户精准推荐电影的

时间: 2024-10-08 10:13:08

Netflix是如何向4000万用户精准推荐电影的的相关文章

从Ashley Madison泄露3300万用户数据分析用户构成

从Ashley Madison泄露3300万用户数据分析用户构成. 随着黑客曝光婚外情网站Ashley Madison3300万用户资料,生成9.7G压缩包的BT种子后,越来越多人了解和重视,有新闻报道已经有多起自杀案件与这件泄露事件有关.现在离汉庭.如家等的2000万用户开房数据泄露已经过去有一段时间了,其影响大家有目共睹,多少家庭因此而破裂!多少人因此遭到无数个骚扰电话!而这次事件不同于如家数据泄露的是Ashley Madison网站本身就存在道德问题.Ashley Madison是全球最大

深度学习容器云获4000万融资,人工智能激活企业云市场

2017年3月,"人工智能"被首次写入<政府工作报告>.报告指出要加快培育壮大新兴产业,全面实施战略性新兴产业发展规划,加快新材料.人工智能.集成电路.生物制药.第五代移动通信等技术研发和转化,做大做强产业集群.随后,多家国内人工智能上市公司涨停. 自去年AlphaGo大战韩国世界级旗手李世石以来,全球就掀起了人工智能60年历史上又一波热潮.2016年,Facebook.Amazon.谷歌.IBM和微软结成史上最大人工智能联盟轰动业界,IBM发布了百年历史上第三个品牌愿景&

从1500万用户巅峰跌落的app,血泪回顾图片社交那些坑

饭桌君说 第八届小饭桌创业课堂来了一位特殊的分享嘉宾,他曾经参与了一款当时极具风头的图片社交app的创始团队,靠谱团队,用户量急速上升到1500万,公司获得A轮……一切看上去都那么美好. 可是,由于各种错,各种坑,这款图片社交app即便获得了A轮投资,也最终走向了分崩离析.团队中各位同学再次扬帆起航,其核心产品经理作为小饭桌同学,深度剖析了当年的错和痛,这些血淋漓的经验教训,都是创业途中难能可贵的宝贵财富.与各位同学共勉! 团队情况: 2011年底,本来团队跟随LBS在做签到,后来发现签到是伪需

2000万用户,对互联网金融意味着什么?

如今,知名的互联网金融公司有很多,但在谁都不公布交易额的背景下没有一种可以横向对比各大互金公司的评判标准,除了蚂蚁金服.陆金所.京东金融这三家之外,其他互金平台给人的感觉并没有太大的差别,不过若从用户量的维度来看,日前刚刚突破2000万的玖富算是领先于其他同行. 玖富移动用户占比高达90% 公开数据显示,玖富目前注册总用户量已经突破2000万,陆金所注册用户为1900万,拍拍贷为1080万,玖富成为蚂蚁金服.京东金融之外同类平台中注册用户量最多的互联网金融平台,而在这2000万用户量中移动端用户

1.1000万用户可能造成的并发数量是多少? 解决方案(理论篇)

今天开始对之前所能够想到的一些问题进行一些理论解决方案的研究. 首先,1000万的用户可以造成多么大的并发数量,应该是可以被计算出来的.我通过百度进行了一些搜索,关于用户数量与并发数的关系. 得到了一些资料,主要参考了一篇名为<并?发?用?户?数?.?吞?吐?量?.?思?考?时?间?的?计?算?公?式>的文档. 其中提到了关于性能需要考虑的几个方面,这些内容稍后再讨论.主要先说说几个公式 1.平均并发用户数的计算公式 C=nL / T 其中C是平均的并发用户数,n是平均每天访问用户数,L是一天

微价值:专訪个人开发人员800万用户之《系统清道夫》

[导语]系统清道夫的作者小E是我敬佩的个人开发人员,"系统清道夫"是在2010年11月13日推出V1.0,到如今已经更新了200多个版本号,而且他仅仅有这一款软件上线,可见作者的坚持.我和小E认识是由于他认为国内的小说阅读器都非常糟糕,自己想搞一个,我当时劝他不要做.就眼下来说,个人开发人员搞阅读器确实困难重重,能把一个app做到极致,坚持究竟就好了. 微价值: 简介下自己的产品?如今大概用户多少? 清道夫小E: 系统清道夫把自己定位于安卓系统上最好用的辅助工具,核心功能是系统软件卸载

微价值:专访个人开发者800万用户之《系统清道夫》

[导语]系统清道夫的作者小E是我敬佩的个人开发者,"系统清道夫"是在2010年11月13日推出V1.0,到现在已经更新了200多个版本,并且他只有这一款软件上线,可见作者的坚持.我和小E认识是因为他觉得国内的小说阅读器都很糟糕,自己想搞一个,我当时劝他不要做.就目前来说,个人开发者搞阅读器确实困难重重,能把一个app做到极致,坚持到底就好了. 微价值: 简单介绍下自己的产品?现在大概用户多少? 清道夫小E: 系统清道夫把自己定位于安卓系统上最好用的辅助工具,核心功能是系统软件卸载,扩展

俄罗斯约会网站2000万用户数据被泄露

北京时间1月26日早间消息,网络安全软件开发商Easy Solutions CTO丹尼尔·英格瓦尔德森(Daniel Ingevaldson)表示,俄罗斯约会网站Topface有2000万访客的用户名和电子邮件地址被盗. Topface并未对此置评.英格瓦尔德森表示,目前还不清楚该服务的密码是否也被黑客窃取. 英格瓦尔德森称,黑客可以使用这些账号来尝试获取银行.病例或其他敏感数据信息.他是在发现一个网名Mastermind的黑客发布的帖子后,发表相关声明的. 受此影响的用户约有50%位于俄罗斯,

大麦网疑遭“脱裤” 600余万用户信息被售卖

乌云漏洞平台报告,一些黑产交易论坛正售卖传播一份大麦网用户数据库,其中包括账号邮箱,密码hash等信息.经过测试,泄漏的账号均可成功登录,大麦网目前已确认该问题.另有用户反映通过大麦预订的演出票未取票订单信息已成空白,常用大麦的朋友要小心了! 白帽子黑客起初发现有大麦网用户数据库在黑产论坛被公开售卖,于是对泄露的用户数据进行验证,发现相邻账号的用户ID也是连续的,并均可登录.因此,丛技术的角度可以初步证明本次大麦网的数据泄露有很大拖库嫌疑(网站用户注册信息数据库被黑客窃取). 目前这一漏洞问题已