未来世界的数据

在2013年2月13号那天，圣安东尼奥马刺队做客克利夫兰迎战骑士队，整场比赛都打得十分焦灼。直到第四节最后时刻，骑士的新秀得分后卫迪昂-韦特斯命中了他菜鸟赛季最大心脏的一球，一记高难度跳投，力助球队在最后9.5秒取得了2分的领先优势。但问题是，他留给了马刺9.5秒的时间，观众们隐约有种不祥的预感，速贷中心那些骑士球迷的情绪甚至都开始失控。

马刺队叫了暂停，获得了一次前场球的机会，他们决定打一个他们最喜欢的战术。马特-邦纳快速把球发给了距篮筐30尺远的托尼-帕克，待邓肯做了个结结实实的挡拆，迫使泰勒-泽勒换防帕克，帕克抓住这一时机迅速从左侧突破。比赛还剩下6.7秒，帕克控制了下平衡，准备来一个他命中率最高的上篮来扳平比分。霎时间，他看到了什么，然后改变了他的主意。

科怀-伦纳德安静的待在弱侧底角，没有人注意到他。因为帕克突的十分坚决，侵略性十足，他的突破成功吸引了伦纳德的防守者——韦特斯，他一直被吸引到了禁区。而伦纳德就静静的杵在那块无人区，帕克很快也注意到了这点，于是帕克手腕一甩，送出了一记精准的助攻，那球沿着底线直直的飞向了伦纳德，韦特斯绝望的扑上去也只是徒劳。剩下的就是例行公事，那个时候，这个漂亮的助攻已经完成，伦纳德只需要在他最喜欢的位置投中最喜欢的那个底角三分。他投进了，而马刺也以一分的优势带走了胜利。

数据统计上把这个漂亮的战术简化为了几个基本的数字：马刺2号球员科怀-伦纳德增加1次出手，1次命中，添上3分。蒂姆-背景帝-邓肯的挡人没有任何记录，而帕克犀利的绕掩护突破和精彩的传球最终仅被记上一笔助攻。

事后，帕克提到了比赛最后的那个战术：“我想我本可以命中那个上篮，但我看到了空位的科怀。我不只是要拿下一场胜利，我还要组织好我的队友们，让他们能整晚出色的发挥，所以在最后时刻我愿意做一个正确的决定。”

研究小组的创建

在2012年MIT Sloan Sports分析大会之后不久，我收到了布莱恩-库普的来电，他是NBA球员追踪数据界的圣约翰，同时也是芝加哥SportVU公司STATS LLC项目的负责人。我那会儿在哈佛大学工作，库普给我分享了他那非凡卓绝的学术成果——篮球数据集；他问我是否也想“玩一些光学追踪数据”。我欣然接受了这次机会，但我完全不知道到底要去做什么。

那次电话后又过了几个星期，我才第一次看到那个项目的基础数据，这是由许多，甚至可以永远的改变篮球分析方式的数据组成的；这绝对是一个“超神（Holy shit!）”的时刻。那个时候我正在用一块巨大的27寸的苹果电脑，可当我双击那个SportVU的第一个文件时，数据还是立刻占满了整个屏幕。我所看见的就是一片小数点和跟踪数据组成的浩瀚海洋和数百个穿插其中的XML标签。马上我就意识到，这显然是我见过的最“大”的数据。我永远都忘不了当屏幕里被跟踪球员从一节到一场比赛的跟踪数据跳跃在我眼前的时候我有多惊讶。我有几千个这样的文件，我想我需要找点帮助。

我找到了卢克-伯恩，一个年轻的空间统计学教授，我告诉了他我的窘境。卢克建议我们在学校里面组建一个研究小组，利用这些数据来建立项目。这个小组很快就吸引了4个研究数据统计和计算机的博士生。到了2013年初的时候，每个学生都建立了不同的项目。我们把这些项目称为“XY Hoops”。

丹-瑟沃尼和艾利克斯-德阿莫尔是我们最早的两个成员。这两个同学都是27岁的四年博士生，在哈佛学习统计领域课程，他们都喜欢运动，但他们更喜欢数据的编码。在看过这堆数据之后，我们很快进行了一些头脑风暴，然后他们就加入了我们小组并提出了一个听起来革命性的，几乎不可能的点子。

先行者的窘境

一般我们都追求最好的分析设备，但先驱者们往往不可避免一个问题，那就是没有完美的分析设备。解释生命的度量标准不止一种，篮球的度量标准同样如此。在当代的运动数据分析界，你容易提升这个“大数据”的角色，但这样确是不巧当的，将其美化十分冒险。数据是一种将球员的赛场表现和统计分析联合起来的简化媒介，而运动分析则构建于庞大的编码解码机制之上，这一机制的前提却是一个有缺陷的假设——“数据可以代表运动”。

但目前的现实情况却是——NBA新任总裁亚当-萧华在2014年为每座球馆都装上了摄像机来测量每个球员的每个动作。这些悬挂在球馆顶部的跟踪摄影机生成了数千兆的数据资料，这些数据对于录像师和训练师来说就是潜在的至关重要的情报信息。而我们的新瓶颈并不是来自于数据，更多的是由于缺少人力资源，我们的分析师总会过度劳累，他们缺乏硬件软件上的支持，缺乏专业培训，但自项目建立以来最困难的则是——怎样去执行这些新生成的任务。

尽管如此，由一群聪明卓越，设备精良的统计员掌管负责，SportVU的数据实实在在是令人惊讶，它潜在的海量信息将会帮助我们对我们所爱的这个联盟有一个更好的理解。用库普的话来说“我们只是做了一些基础的数据研究，而让这些数据转化为先进的分析依据和方法还要花很多的时间和精力。”NBA的大数据时代才刚开始，人们还是倾向于一个漂亮的扣篮，这能振奋球队，球员，取悦媒体，更重要的是，能让球迷感到兴奋。我们不能保证这些，但引用帕克的话，我们只是要确保我们“最终做了正确的决定”。

为什么要进行革新

托尼-帕克是世界上最好的进攻创造者（Playmaker）之一。十多年以来，他一直都在推动着马刺，激活了他们严谨呆板的进攻。尽管他已经拿下了3座总冠军和一座总决赛MVP注1，帕克还是一直被低估，被认为不是一个真正的超级巨星。今年又是如此，帕克再次成为全明星替补，在他前面的是小有所成的天才投手。也许这是因为他是一个外国人，也许，这是因为他打球的位置地处德州中心，市场较小。

注1：更不用说去年帕克差点就能拿到他的第四座总冠军和第二个总决赛MVP。

但也许，这是因为我们的数据统计低估了帕克这类球员在场上所做的一些“细节”，却高估了那些最容易量化的数字——比如得分，比如篮板，比如助攻。

一方面，我们不能否认伦纳德在克利夫兰那记三分绝杀的重要性，毕竟，他才是那个投中关键球的人；但是另一方面，把掌声都送给伦纳德就如同把《地心引力》的赞誉归功于乔治-克鲁尼一样。

“那种球我们练了1000多次，因此我知道我们能够去执行它。”圣安东尼奥主教练格雷格-波波维奇在赛后说道。

如果我们将这种传统的篮球（统计）比喻成下棋，你就会发现，我们过于看重每一步的移动，却忽略了总体大局上那些移动所关系的相关战略布置。下棋的输赢往往不是最后的那一步，同样地，篮球的每一次球权也是如此。最后的出手并不代表什么，像帕克和保罗这样的球员，他们能从各方各面帮助球队赢得有利位置。

在大数据时代，目前的统计系统——也就是我们的数据表——是一种纯输入机制，是的，这个挺直观可靠的。但这是当年简单地由铅笔和纸记录数据的产物，它无法真实衡量场上10名球员的作用和贡献。诚然，数据表到现在都挺实用，不然它不可能从比尔-拉塞尔时期到迈克尔-乔丹岁月甚至沿用至勒布朗-詹姆斯时代。它所衍生出来的理论定义已转化为我们所说的“先进数据”和“篮球分析”。

过去数十年中，像肯-波默罗伊，迪恩-奥利弗和约翰-火灵哥这样的先驱者将篮球的数据分析引入了计算机时代。他们有效的利用了电子表格和其他新式计算机时代特有的计算公式和分析方法。我们要借助他们的理论思想继续学习，因为这些东西的革新还在继续。

理念，定义及演示

2013年春季学期的早些时候，瑟沃尼和德阿莫尔打算建立一个新的项目来测量NBA里的性能值（performance value）。他们提出这个想法的动机非常简单，但实现他们这个假设估算所需要的付出却不尽然。他们的核心假设是：

每次篮球球权的“状态（state）”都有一个值。这个值由一个即成篮球事件的概率决定，其结果为该次球权的总预期得分。NBA每次球权得分的平均值接近为1分，其预期得分的准确值又随着时刻的改变而波动，而这些波动的原因就是场上瞬息万变的各种突发事件。

不仅如此，他们还深信一点，利用SportVU数据所带来的启发，我们可以——史上第一次——做到估计整个赛季中每一刹那每一时刻的性能值。他们提议我们是否可以建立一个采样模型，这个模型要考虑到这些关键因素——比如球员的场上坐标位置，他们各自的得分能力，持球人是谁，他持球状态的趋势，以及他在场上的位置（1-5号位）。然后，我们就可以以一种全新的方式来对NBA的性能值进行量化分析。

换句话说，假如你在任意时刻暂停了任一场NBA比赛。瑟沃尼和德阿莫尔的中心思想是：无论你在任意时刻暂停比赛，你都能够科学的估计该次球权的“预期球权得分（expected possession value）”，或者简称“预球权分（EPV）”。

打个比方，假如勒布朗-詹姆斯在篮下持球，且完全无人盯防。我们就能猜到这两分他是拿定了。那么这一时刻的预球权分就无限接近于2。相反，假设德怀特-霍华德持球距篮筐40尺远，且比赛时间只剩下1秒，且有三人对他贴身防守。我们大致也能猜到这球怕是进不了了。那么这一时刻的预球权分就无限接近于0。当然，场上的各种情况不至于这么极端，但它们还是能通过预球权分机制来评估出来。

这只是一个新式的概念，而真正的“奇思妙想”就从这里开始。

如果我们能估计任意比赛的任意时刻的预球权分，那我们将能以一种更为复杂精细的方式对球员的表现进行量化。我们可以为这个“值”引入这些概念，比如无人防守，持球突破以及遭遇双人包夹的影响。我们可以更精确的量化球员的动作，针对特定球队特定球员的挡拆战术，到底哪一种防挡挡拆策略才是最好。通过提取和分析比赛的基本动作，比如单独解析每一种战术的每一个细节，我们就可以得出哪一种战术的哪一个细节最为有效，同样，我们还能得出哪个球员才是最好的执行者。

但预球权分最为清楚明确的应用还是量化球员的总体进攻得分值，我们可以考量他持球时的表现，任何细枝末节的动作，无论是一场比赛，一次客场之旅还是整个赛季。我们可以利用预球权分概念将数千个动作转化为一个简单的值，再通过对比他和假想的替换球员（比如一个联盟平均水平的球员）的真实值来判断他能多得多少分，方法是将该假想球员人工放入一个与该球员完全相同的篮球状况之中注2。这个值则称为“预球权分增加（EPV-added）”或者“得分增加（points added）”。

注2：伟大的基斯-乌尔内，前棒球统计界掌门人，他曾提出Value Over Replacement Player (VORP)，即与替换球员得分的差值，这与之类似但又有所不同。

我们再回到帕克-伦纳德的那个绝杀球，这次我们通过预球权分的视角来观察这一过程。这球的初始条件为：骑士领先2分，比赛还剩9秒时间。帕克接球启动了这一系列动作，模型预计该次球权的期望得分为0.97分。

邓肯给帕克做了一个挡拆，让帕克有充足的空间来突破泽勒，此时预球权分实际上正在降低，因为帕克正在中距离持球突破泽勒。随着帕克杀到篮下区域，预球权分也增加至1.36分，帕克的突破已经使得本次预球权分增长了0.39分——但他还没有结束进攻。他发现了底角的伦纳德并送出一记不可思议的助攻，这个动作使预球权分再次增加。考虑到伦纳德的空位以及他在底角出色的手感，帕克本次助攻实际上使球队的预球权分达到了1.75的峰值。此后，由于韦特斯的扑防，预球权分降到了1.58，可惜韦特斯回防的时候已经太晚了。

下列分镜为截屏，强烈建议大家去原网站看看光学追踪的力量。点击这里（需要*河蟹*）。

此时比赛还剩下9.2秒，而马刺落后骑士两分（都是影响因素）。帕克（弧顶）刚刚接到马特-邦纳的传球，这时候，他试图打一个战术来追平或是反超比分。这个时刻的预球权分接近于1。

邦纳发球给帕克后立刻跑到了三分线外，同时，邓肯给帕克做了一个挡拆挡住了利文斯顿，迫使泰勒-泽勒换防帕克，此时帕克位于三分线内一步且有人盯防，其预球权分也降到了0.86。

帕克迅速突破，他进入了禁区，且防守人被他甩在身后，此时，随着帕克距离篮筐越来越近，预球权分也达到了1.36。

此时帕克注意到了位于弱侧底角空位的伦纳德，他迅速将球传了出去，由于无人干扰本次传球，而伦纳德在这个区域命中率非常高，且无人防守，你可以看到预球权分直线上升到了1.75。

你可以看到预球权分略有下滑，那是因为迪昂-韦特斯赶过去封盖了，可惜此时为时已晚，影响微乎其微，他扑上去时其预球权分还是高达1.58。值得一提的是，此时距离比赛结束还有不到4.5秒的时间，你可以看到邓肯和邦纳已经来到禁区准备抢板，而骑士的球员很好的挡住了他们，但他们漏掉了三分线外的加里-尼尔以及在界外看戏的托尼-帕克。

在这次进攻中衡量预球权分之变动的方法有很多，但最简单的方法是针对本次球权的个人进行比较。通过这个方法，从初始阶段的持球开始（0.97）到最后传给底角的伦纳德为止（1.75），帕克的一系列动作为本次进攻赢得了+0.78分。

在这个平行世界里，没有我们传统的统计数据，只有预球权分，帕克终于在这次进攻中得到了一个可观的数字荣誉。而通过传统的“得分，篮板和助攻”数据，伦纳德是最终的赢家。各大网站的标题都是“科怀-伦纳德三分球绝杀骑士！”。

模型来源与基础

瑟沃尼和德阿莫尔去年开始建立了这个测量预球权分的模型。这个模型的原型是他们的“竞争风险模型”，该模型主要是运用生存分析（survival analysis）来鉴定多重死亡风险（multiple risks of death）和风险对时间的改变，瑟沃尼从中发现了适用于篮球领域的机会。他将“人类寿命的持续时间”变为“NBA的球权”，再将“造成死亡的多种因素”变为“球场上的各种事件”。

这种独特的篮球分析方法将成为这个月底在波士顿召开的“2014 MIT Sloan Sports 分析大会”上的主要讨论课题。

“我替换掉了‘死亡’，”瑟沃尼解释道“我们正在将‘风险’应用为球场上不同时间各种突发事件的概率。”他在一篇论文中提到，每场比赛的每个瞬间的模型评估都有两个关键值：

根据定义，每次球权的当前时刻预球权分是该情况下未来所有进攻选择其可能结果的加权平均值。计算该值需要一个能在给定的球员在场上的空间位置条件下，计算持球者下一步趋势的概率分布模型，我们以此来理解该次球权的发展趋势以及由它们当前状态所决定的发展可能性。我们把这个模型称为“球权模型”。根据马尔科夫猜想（他让概率论重新恢复为一门学科，学过概率论的都应该感谢他），球权模型让我们能够估计：（a）在特定情况下，特定球员将要做出相应决定的概率分布，以及（b）球员做出决定之后的预球权分的值。综合起来，我们就能知道一次球权在任意时刻的预球权分值，以及生成该值的攻方配置特性。

再举个例子，以下根据是上赛季马刺对雷霆的一场比赛建立的球权模型，我们来评估相应关键值。科怀-伦纳德在弧顶持球，模型分析了伦纳德的下一步进攻趋势，而预球权分的改变结果将在他做出特定动作后得出。

如果你问瑟沃尼这个项目最难的是哪个部分，他一定会毫不犹豫的指出——计算。他的答案对于这个朝着大数据时代的猛冲的各种数据分析方法都很有意义。说个数据，仅2012-13赛季，用于瑟沃尼论文里的SportVU数据就包括了8亿个球员位置坐标。别忘了，这个数据仅仅是从14个场馆中记录得到的——而如今，每个场馆都在记录数据。光这个项目数据库里的数据就达到了93GB。

为了从这个庞大的数据库中提取模型所需的数据，瑟沃尼和德阿莫尔启用了哈佛大学的超级计算机——奥德赛。而这台超级计算机还是花了超过500台电脑的马力以及2TB的存储空间才完成了这项分析。

相较过去几十年那些基本的加减乘除和简单的数据，这种新式分析是非常非常非常具有挑战性的，无论你从人力考虑还是从计算机性能方面考虑。NBA中有多少人知道什么是竞争风险模型？有多少NBA球队拥有这种超级计算机？又有多少人会操作超级计算机？我知道答案不一定是0，但一定无限接近于0。

实际应用

在2012-13赛季里，克里斯-保罗有着所有球员当中最高的“得分增加（points added）”，场均高达3.48分。这就是为什么，为什么联盟中那么多人把他称为NBA最好的控球后卫。帕克的排名同样很高，场均增加1.5分，他在球权达标的327个人中排名第20位。而里基-卢比奥则是最低的，场均负增加3.33分。“当我们提到保罗拥有最高的3.48分的得分增长”德阿莫尔解释说“我们是说他的球队场均都因为有他而增加3.48分，而不是一个普通平均水平的球员，每一次他接球根据场上形势作出判断都举足轻重。”

“总的来说，球员要想（在这项统计上）得到高分，就需要提高——他们自己的投篮能力以及他们队友的水平，这样分数才高，”德阿莫尔继续说道“比方说，某个球员的投篮能力高出其他人一截（咳咳，比如德克的中距离），或者能很好的发挥队友的天赋（咳咳，比如阿伦的三分），那么这个球员的数据就是‘+’。但假如一个球员投篮选择糟糕，该传球时却选择强投，或是把球传给了错误的人（比如，卢比奥传给手腕有伤的乐福），那么这个球员的数据就是‘-’。”

卢比奥的“负增加”主要是因为他那不幸的投篮能力。相比联盟平均水平，他在各个区域的命中率都很不理想。就预球权分的替换差值（over replacement）而言，基本上你换任意类似的球员投同样的球，分值表现都会比他更高。出于这个原因，即使只算他不投篮时的增加值，其模型总评还是很低注3。

注3：点击这里了解更多

以下为注3中论文部分所引用一组对比，即预球权分增加（EPVA）最高和最低的两人。随机提取了他们某一段时间行动的预球权分（EPV）波动变化。

中间EPV处黑点为该球员的EPV，灰点为平均水平球员的EPV，中间左右两侧为传球（Pass1,2,3,4），命中（Made Shot），投失（Missed Shot）以及失误（Turnovers）的概率，深色为该球员在此情况下的相应概率，浅色为平均水平球员在此情况下的相应概率。

如上图所示为克里斯-保罗在一次三分线持球开始，到突破至篮下结束的EPV变化，我们将其与平均水平球员在同等条件下做同种动作的EPV进行对比。初始时刻，保罗三分线外持球，他的各种动作趋势并不明显，但他的EPV（0.96）略低于平均水平（1.0）（译者认为此处要考虑保罗该点的三分球命中率以及他选择突破或传球的趋势（造成EPV波动），因此略低）；而终止时刻，保罗已成功杀入篮下，由于其篮下命中的可能性极高，当然不排除他篮下突分及失误的可能性，但从上图可以看出，此时保罗命中的概率最大，因此他的EPV飙升至1.58，而平均水平球员在此情况下的EPV则只有1.28。因此，本次进攻保罗的EPVA为1.58-1.0=0.58 这只是这一次的EPVA，而场均的就显然是超级计算机的工作了。

再来看里基-卢比奥的本次动作，他从篮筐的右侧持球开始，运球到篮筐左侧结束。运用上述方法进行对比。初始时刻，卢比奥篮下持球面对空篮，两位防守者在其身后，如上图，由于其篮下终结能力较差（投失概率最大），其EPV仅有0.81，而平均水平球员此时EPV高达1.58；随后他运球至篮筐左侧寻找机会（但传球概率也随之减少），防守者也补防到位，但由于其篮下终结能力较差（投失概率最大），其EPV还是仅有0.86，而平均水平球员也降到了0.92（有人补防等因素）。因此，本次进攻卢比奥的EPVA为：0.84-1.58=-0.74（此处原文为-0.66，译者看图许久也没看出来怎么算的）。

另外附上注3中论文的附录1——上赛季NBA球员的EPVA的正数前十和倒数前十，要说一句的是，当时仅有14个场馆安装了光学追踪摄像机，数据样本不完全，因此无法覆盖所有球员的每一场比赛，比如保罗和詹姆斯（排名正数第23）就只捕捉了他们某些客场的光学影像，分别为11场和17场。译者认为保罗第一是由于他的自主进攻能力，创造机会能力，以及队友把握机会能力都很强，而文中明确指出，卢比奥排名垫底则是与其全场无死角的低投篮命中率有关（神翻译来自@ scifihoop）。

尾声

预球权分项目的总体贡献我们还不得而知，它还处在一个幼儿期，绝不可能现在就能对篮球分析发起一场“革新”。但它最终将会为NBA开辟一条全新道路来分析球员表现。也许结果不尽其然，也许它的作用不在评估球员的真实价值，而在于为未来世界的篮球分析提供一种新的思维想法，新的计算能力，又或是新的理论基础。这几年来，我们总是在说要创造一种“先进数据”，可事实上我们却仅仅是对一些算法稍加精进而已。无论我们是否愿意，这种情况都要有所改变。不要误会我——每回合得分和PER值已经显著提升了篮球的分析能力。但是，未知的世界还很大，我们要做的是还很多。考虑到目前我们所获得的追踪数据浩如瀚海，我们迫切的需要找到一种类似的新型数据提取技术。

只可惜，最好的数据组已越来越难得到，而计算也变得越来越复杂，坐在家里就能进行这种数据分析的未来还是比较遥远。

时间： 2025-01-13 14:31:15

未来世界的数据

未来世界的数据的相关文章

数据分析变革大数据时代精准决策之道——互动出版网

王吉伟：厉害了王坚的《在线》未来世界还有什么不能被计算?

互联网大会带你了解大数据的未来发展趋势

第四期：有关大数据相关问答汇总，持续更新哦~

我意识中的未来世界

记一次MySQL找回用户数据

使用 Chrome 浏览器插件 Web Scraper 10分钟轻松实现网页数据的爬取

Day4 - 迭代器&生成器、装饰器、Json & pickle 数据序列化、软件目录结构规范

Oracle 10g通过创建物化视图实现不同数据库间表级别的数据同步