上图:反映北京出租车轨迹数据分布的热度图,微软亚洲研究院供图
近年来,城市计算(Urban Computing)逐渐走入公众视野,并且越来越受到社会关注。这是一个以计算机科学为基础、涉及了多项其他技术的新兴交叉领域,其中以智能交通这项典型应用最广为人知。事实上,城市计算的相关技术还可以应用到城市规划、环境污染监测、车辆能源消耗、城市安全和紧急事件响应等方面。美国《麻省理工技术评论》杂志(MIT Technology Review,简称TR)本年度的“TR35”评选也对城市计算青睐有加,微软亚洲研究院主管研究员郑宇因在该领域的杰出研究而入选。
TR35意即“35名在科技创新领域具有杰出成就的35岁以下顶级青年创新者”,TR杂志自1999年以来每年都会进行此项评选,以鼓励科技创新成果对人类社会发展的推动,并在随后举办的EmTech新兴技术峰会上为最终的获奖者颁奖。雅虎创始人杨致远、谷歌联合创始人拉里·佩奇、Facebook创始人马克·扎克伯格、Twitter联合创始人杰克·多西以及苹果设计师乔纳森·艾维等多位互联网明星都曾入选TR35。郑宇是今年入选者中仅有的两位来自中国机构的创新者之一。他的研究主要集中在交通、城市空气质量和城市油耗等方面。
最近几年城市中出现了大量的传感器,如智能手机、道路摄像头等,这些都为城市计算提供了足够多的可分析数据,特别是人本身也作为一种传感器在起着相当重要的作用。移动设备和社交网络的普及使得人成为海量信息的分享者,这些数据又汇聚起来以群体智慧的方式为城市计算所用。郑宇认为,无论是从计算环境的成熟程度还是从生活的相关度来说,现在都是做城市计算研究的最好时机。
凤凰科技就“城市计算”话题对郑宇进行了专访,以下为访谈实录:
每个人都是移动传感器
凤凰科技:我看到你的微博介绍这样写: “酷爱时空数据挖掘”。能简单介绍一下什么叫做“时空数据挖掘”吗?它跟你现在的研究城市计算方面有什么联系?
郑宇:对,有很大的联系。首先说一下什么叫数据挖掘。我们有很多的数据,它虽然只是一些符号、一些数字,但是其实里面蕴含了丰富的知识。通过对数据进行分析和整合能够把知识和智能提取出来,这个过程就叫数据挖掘。
数据有很多种,我更加关注的是时间和空间的数据。不管什么地方都会出现一些位置信息,比如楼的位置、车的位置、道路的结构,这些都是空间数据;再加上时变信息,比如人的移动性、车流量、地表温度,就标定了时间和空间的结合。二者反映了城市的动态。我们微软亚洲研究院的团队通过对这种时空数据的分析,就能发现城市里面很多的潜在问题,并可能会找到一些方法帮助解决这个问题。
凤凰科技:所以你对城市计算特别感兴趣?
郑宇:这是理由之一,我有跟时空相关的技术的兴趣喜好。另外一个原因是,我们都生活在城市中,城市跟我们的生活密切相关。我是做计算机科学的人,那为什么不能想办法解决身边的那些最常见的问题呢?我觉得我做的工作既是帮助大家也是帮助自己。
凤凰科技:现在你觉得城市的状况有改善吗?
郑宇:从研究的角度来说,我们要尽量把研究做好。以前城市里虽然也有人在移动并产生了数据,但是没有相应的传感器和计算单元,无法把这些数据转化成我们可以得到的信息。现在各种各样道路上的传感器、摄像头或者社交媒体数据,都已经广泛存在了。这就让我们具备了一个时机。所以无论是从我个人还是从数据和计算环境的成熟来看,这三个方面都应该是做城市计算最好的时机。
凤凰科技:我在你的文章里看到一个“人体传感器”的概念,这是不是一个比较新的概念?
郑宇:对,人作为传感器相对来说是比较新的概念。你可以想象现在某一个地方发生了交通事故,可能有些人会发微博;或者一个地方遭遇水灾之后,也可能会有人拍照发微博。当人们在产生这些数据的时候,其实就是在帮助我们感知他们周边发生的事情。如果能把很多人的数据集合在一起,就可能会发现这个城市的环境。
我们可能都没有意识到,我们上车下车时候的刷卡其实代表了一个人行程的起点和终点,以及这个车的移动时间。乘坐地铁也是一样的,这些数据其实都帮助我们更好的理解城市。所以我们可以认为人是一个比较灵活的移动传感器。
凤凰科技:那么你们在做研究时这些人的数据是怎么获得的呢?
郑宇:有一些是微软自己的,比如说地图数据。有一些是通过合作得到的数据。但是我们从来不去分析一个人的数据,这是城市计算跟传统社交网络不一样的地方。我们会把所有的数据放到一起整合来分析。
凤凰科技:所以是一个整体的数据状态。
郑宇:对。以大家乘坐地铁刷卡为例。城市计算从来不会说哪个人从哪到哪,而是说地铁的总流量是多少,或者路面上的速度是多少。这个速度的信息实际上来源于所有乘坐地铁的乘客的贡献。
凤凰科技:普通人可能会觉得城市特别混乱,你是怎么看待城市的呢?
郑宇:从城市计算的角度来看,城市是一个很复杂的环境,很多的问题都是相互关联的,比如说城市规划、交通流量和这个城市的气候环境以及经济发展,不能简单地把它们分开一个一个去解决。现在有了大规模的数据之后,就更多地可以利用群体的智慧,来向城市管理决策者传递城市里面发生的一些故事。这样就有可能去改变城市未来。
凤凰科技:所以城市里的人和城市的关系应该是一个互动的、相互关联的关系?
郑宇:对,因为城市最后还是人民的城市,人民还是城市的主人。人应该参与到这个城市的各种各样的决策和规划中来。
凤凰科技:你怎么看待“智慧城市”的说法?在你的设想里,一个有“智慧”的城市应该是什么样子的?
郑宇:“智慧城市”整个概念一直是人们关注的焦点。业界更多是讲一个智慧的城市应该是怎样的,可能谈论“What is”多一些;而从微软的城市计算研究的角度看,我们更喜欢谈如何实现,也就是解决“How to”的问题。
从研究的角度看来,城市就好像是一个类型复杂、总量巨大、川流不息的数据时空,我们所做的只是搜集、筛选、解读这些数据,并以直观易懂的方式,为城市的主体——我们每一个人,提供个性化的、随手可及的信息和服务,这也许就是所谓的智慧城市吧。
首创大规模、实时动态拼车系统
凤凰科技:你自己的城市计算研究主要聚焦在哪几个大的方面?
郑宇:交通是一方面,城市规划一方面,最近也在看环境和能耗——现在主要看的是汽油的油耗数据,因为它燃烧排放废气跟空气质量相关。
凤凰科技:人们应该对交通和空气污染更加感兴趣。
郑宇:这两个是跟用户关系比较紧密,但是有的时候根本还是要通过城市规划来解决。技术要成为连接群众和决策者的通道。
凤凰科技:能给我们介绍一下你在微软亚洲研究院做的一个出租车拼车的系统吗?为什么拼车能够解决目前的交通拥堵和出租车运力不足的问题?
郑宇:现在大家都知道打车非常困难。因为在上下班的高峰期,北京可能有几十万人、上百万人的要打车。但是出租车只有六万多辆,这显然是不可能满足所有的需求,总是有人打不着车。那是不是可以通过简单的增加出租车的数量就解决问题呢?其实也不一定。再增加出租车的数量,可能会让道路变得更加拥堵,那出租车司机在单位时间内的载客数量反而会下降。现在也有一些叫车软件,可以在一定程度上提高一点运载量,但是并不能够100%解决问题。出租车在坐一个人的时候,其实里面还有两三个位置是空着的。那我们能不能把这些闲置的座位利用起来,提高运载量?这个问题其实是通过拼车来解决。
凤凰科技:请介绍一下这个系统是如何运行的。
郑宇:拼车要能够满足老百姓的需求第一要做到实时动态。比如我现在想打车了,通过手机发送一个请求,马上就会有出租车过来接我。哪怕车上有人都可以。第二,有几个约束条件:对于乘客来说,他希望费用降低,不希望出租车到的时间比预期要晚;对于司机来说,他希望收益增加。
在我们这个拼车系统里,用户可以下载一个手机客户端,提交一个请求,告诉出租车司机自己从什么地方出发到什么地方去、有几个人上车、希望几点钟到。请求发出之后,出租车司机也可以通过这个应用程序加入进来。当然还要问一下车上已有乘客的意见。
我们通过这个软件可以知道司机在什么地方、车上大概有多少人,而且这些信息都会自动更新。所以我们可以算出哪一辆车来接这个用户所增加的距离是最小的,并且能满足用户的请求。
如果这个问题能够解决,就会达到三赢的效果:对于政府来说可以节能减排,大概每年能节省1.2亿升燃油——这些油大概够100万辆车一个半月的油耗,可以节省近10亿人民币;对乘客来说,他可以打到车的几率会提高三倍,乘车的费用还会降低7%左右;对司机来说,他的收益会增加10%左右。
凤凰科技:这些是怎么计算出来的?
郑宇:我们做了一个仿真系统。这个仿真系统分析了现在出租车的GPS轨迹,这样就知道每个地方上车人的数目是多少,他们分别去什么地方。我们就会利用程序来模拟现实世界中用户的打车请求,然后用拼车算法去满足这些需求,最后把拼车的数据跟不拼车的数据进行比较。
凤凰科技:这个“实时动态拼车”的方法,从路线方面以及乘客沟通方面来看还是挺复杂的,在实际应用中会不会影响效率?
郑宇:事实上,对乘客叫车来说没有区别,跟用打车软件一模一样。基本上乘客提交需求,系统反馈会告诉你出租车什么时候来接。但是基于礼貌,系统会问如果有其他人上车的话愿不愿意拼车,这对乘客来说是一个成本。
凤凰科技:影响效率的可能就是这个成本。
郑宇:确实有些乘客上车可能就不想受到任何的打扰,我们的系统也可以支持这个选择功能(即上车后就不再接受其他人上车请求)。怎么把它变得更人性化,怎么保证信任机制,这些都是还需要考虑的非技术因素,很重要。
凤凰科技:在你所了解到的国外有类似的系统吗?
郑宇:实时动态、大规模的拼车系统,我们的是第一个。
凤凰科技:你设计的这个系统会给用户建议最佳路线吗?
郑宇:这个可以和我们之前一个基于出租车轨迹的最快行车路线推荐系统融合到一起。因为首先我们真正需要的是未来的交通流量而非实时流量。大量带有GPS的出租车在路上跑的时候类似于移动传感器,感知了路面的流量。它们的历史轨迹数据蕴含了交通的规律和模式,而实时的轨迹数据则反映了当前的交通流量。结合历史规律和实时交通流量就能预测未来的交通状况。
其次,司机是有经验的,因此出租车的数据中也蕴含了人的驾车智能。
大数据监测空气污染:下一步是预测
上图:北京各地区实时空气质量指数,微软亚洲研究院供图
凤凰科技:在你的研究里,空气污染的监测是怎么实现的呢?
郑宇:这个与大数据相关。
北京市区有22个空气质量监测站点,会播报周边的空气质量。但并不是说所有地方都有站点。城市里面的空气并不是均匀的。因为空气会受很多因素影响,比如地面交流流量、建筑密度,土地使用规划,附近有无是矿厂或者公园都是不一样的,还有气象条件也不一样。这么多因素导致这个城市里面各个地方的空气质量是不同的,而且差别还很大。
我们从数据里面分析出,比如有的地方隔两三条街,可能只有两公里左右。这两个地方的PM2.5值就能一个几十另一个几百。而且从我们统计历史一年的数据看,在北京城里面同一个时间里面最大值和最小值的差别大概在200。
凤凰科技:最大值和最小值这两个地点的距离有多远?
郑宇:就是城区六环以内。这个区域内的空气质量大概会有40%左右的差别,差别在100以上,差两个等级。导致结果的是什么?就是如果我们这边没有监测站点的话,你就不会知道这里现在的空气质量怎样。
如果能够有一个系列的空气质量数据的话,比如全北京每公里范围内的数据,我们都知道空气状态是怎样的就可以做很多事情:你可以查看城市里面多个地点的空气质量,比如公司、家或孩子的学校,然后设定一个警戒值,一旦超标,就给孩子打电话减少去外面玩或者外出戴口罩,告诉父母把窗户关上、开空气净化机。
另外,我们可以进一步为那些喜欢跑步和骑自行车的人设计一些合理的路线,来保证他们最优的空气质量。对于运动的人来说时间和距离都不重要,他们更多是锻炼身体,因此空气质量特别重要。
如果城市的空气质量检测站点不够,政府需要再建五个,那我们也可以通过分析来告诉政府哪些地方需要再建。
凤凰科技:像微博上说美国大使馆那边的空气PM2.5含量是多少,这是不是并不能说明整个北京城的空气气量都是这样的?
郑宇:对,其实我们也在观察这个现象,有时候大家的数据可能存在一些偏差。并不是说北京其他地区的空气质量一直都很差,可能那个地方建筑密度比较大,然后车流量也比较大,这都会造成监测数据比较高。现在我们有数据的话,确实应该公开对待这个问题。好多时候大家会觉得北京就是一个毒室,但其实这是一个空气质量的平均值。
凤凰科技:如果政府公布某一天的北京污染指数是多少,其实也是平均值数?
郑宇:对,是这样。大家不会都去看22个站点的监测数据,那会很累。除非我们的手机应用能够告诉自己关心的地方的数据。
凤凰科技:所以这里可能有一个误解:人们觉得各个地点的空气质量是一样的。
郑宇:对,因为跟人相关的是地表空气,也许向上几百米后空气就变得一样了。在地面上,可能由于房屋的结构导致空气循环不好,比如刚才车辆大拥堵,排放的尾气没有扩散;或者旁边有个厂矿,这跟附近有一大片湖水和一片草原得到的数据肯定不一样。
凤凰科技:那么空气污染的监测是怎么跟大数据产生关联的呢?
郑宇:因为这里面我们刚才说22个站点产生这些数据是城区的,其实六环以外还有,总共加起来可能30几个监测站点。要用有效站点的读数把整个城市的空气质量估计出来,我们就要结合其他的数据,包括整个交通流量的数据、道路结构数据、兴趣点数据(楼房、餐馆、旅馆、公园等),还有气象数据等等。把这些大数据融合到一起以后,我们基于已有的站点就能够训练出一些模型来。即使一个地方没有站点,但是我们同样有它的大数据,放到模型里面就能估计当地的空气质量是多少。
凤凰科技:这其实是一种预测?
郑宇:现在来说还是一个对不同地点的实时估计。下一步我们想预测未来两个小时以后的空气质量会怎样,甚至明天怎样。
凤凰科技:技术上都可以做到?
郑宇:我相信可以,但是现在这个预测还在做,还没有结果。
凤凰科技:在你的眼中好的科技创新是什么样子?
郑宇:我觉得有一个大的方向就是“顶天立地”。就是说要有很高的前沿性、技术创新性和理论难度;但你脚是踩在地上,有实用价值,能够真正改变人的生活。
凤凰科技:好的技术是不是要最终应用出来才会显示出价值?你怎么看待这个问题?
郑宇:不一定要商业化才有影响力,影响力来自很多方面。一些前沿研究,不一定非要以有用为唯一的衡量标准,是否有趣、是否有想象力也是很重要的标准。