谁的大数据?

  说起大数据,大家并不陌生,阿里巴巴、腾讯、百度等互联网公司早就提出大数据,更有不少国内外公司推出智能手环、智能眼镜等可穿戴设备来采集数据,使之成为大数据的一部分。

  既然大数据由每个人的行为构成,那么数据的所有权归谁?这是很多人最为关心的问题之一。

  今天,百度The Big Talk请来全球七大权威大数据专家之一、麻省理工大学人类动力实验室主任Alex Pentland(阿莱克斯 彭特兰),做了《大数据开启大未来》的主题演讲。他明确回答:数据所有权应还给所有人本身。

  有意思的是,彭特兰并不戴任一款可穿戴设备,原因是眼光高,还没有一款产品入他法眼。

  彭特兰从可穿戴设备和大数据收集、社会物理学、大数据的安全和隐私三个角度谈了自己的理解。

可穿戴设备和大数据收集

  一般人认为大数据开始于搜索引擎和计算,彭特兰跟大部分人不一样,他认为大数据始于输入数据开始。“所有的世界都是互联网联系起来了。各个角落都有电脑,有人,有信息输入,就能共享,这是以前不同的。可穿戴设备如何嵌入汽车,家庭生活当中。每个人都有智能手机,你身体到哪里就到哪里。”

  彭特兰和学生在20年前,就在想怎么能让电脑更加微小?1994年,彭特兰有个学生就发明了类谷歌眼镜的产品;1995年,摩托罗拉让他们做的项目,和苹果非常相像,和可穿戴设备一脉相承。他20多年前就意识到可穿戴设备将无处不在。

  可穿戴设备很多应用是令人激动的,比如智能手环可以记录心率,在人体大脑皮层中很多点数据可以记录。当人们使用可穿戴设备的时候,可以更好理解当一个小孩哭的时候发生了什么,他兴奋的时候怎么了。大数据让人更微妙,甚至可用在打牌上,获得更好的赢率,有人拿到牌会故意虚张声势,但可穿戴设备的数据将暴露他实际拿到的牌,类似的也会暴露谈判桌前人们的情感表现。

  彭特兰认为,人们注意的不是对话的语言,而是你的动作。有的人在动作上紧紧跟你,例如男女约会说了三分钟后,不需要去听他们说的话内容,就能够通过非语言的迹象判断,手拿起来的时候,大脑里负责手举起来的皮层是亮的,这都是可以做的应用。大 数据判断抑郁症的迹象,不是测血压,而是对他们说话的形式。也有轻松一点的,纯粹为了玩的,比如艺术家一走起来,上衣就会点亮,显示出走路的肢体;感到兴 奋的时候头发就会竖起来,这不是我们日常去测量的指标,当一个人为某人跳舞,就会转换为音乐,这是音乐跟着人去舞蹈,而不是舞蹈跟着音乐。

  大数据对金融也有帮助,并且在香港已经实现,大数据打通了信用卡。当一个人在超市、加油站等刷信用卡,通过此前的购物模式,几秒钟判断你下一步的行为,以此推荐。

  彭特兰特别提到了新奇的思想流。大数据可通过哪些人是你Facebook的朋友,达到思想流的利用。这是因为,当知道你跟谁在一起,你跟谁打电 话,就会是判断出你下载一款APP是平常人的5倍几率,是作为买家购买某产品的13倍。现在Facebook没有做到预测,但人和人见面交流是很有潜力 的,你跟谁在什么地方,而不是纯的数字的证据,这很重要。

  他曾经在旧金山做过实验,在旧金山一些咖啡馆和小酒馆采集数据,发现旧金山不是一个城市,而是七八个部落。通过这个分析把部落分出来了,有利于 广告分布。人群并不知道彼此,但是是同一类人。物以类聚,彼此影响,相关度的行为,甚至还有想通的疾病,比如一群人糖尿病比另一群高5倍;又比如,一群人 比另一群人更有10倍嗜酒。

  另一个例子在伦敦,两个月所有交通和犯罪的数据,所有高犯罪率的地方可以犯罪预测;一个地方突然老人都不去了,就是高犯罪率的。

  说了这么多可穿戴设备,彭特兰却称,自己不戴可穿戴设备,因为自己有很高的标准,如果达不到就不会戴。“它们不能告诉我有用的信息。心率我不需要,我需要更加让我有创作性。最有趣的可穿戴设备是,我俩不用说话,它看着我就知道我想什么。”

社会物理学

  社会物理学已有两百年的概念,真正的可穿戴设备的未来,不是衡量自己,而是测量互动,测量社会。

  彭特兰认为,从传感器来建立数学模型,这种互动的方式,更好决策,其他方式不如这个好,大数据的诺言之一,就是让我们更加了解自己,了解社区,了解组织。

  “每个人都携带手机,嵌入电子元件,手机与我对社交环节,人与人之间互动的话,能做到什么?”彭特兰曾在街上找了几百个人分成几组做实验,实验关于小组成员的沟通方式,包括是不是都参与了,大家都是否相互了解,以及互动这三点。

  “这比小组成员的智商更重要,意味着思想流产生了集体智慧,实际上就是智商。”他说,左侧小组里主要几个人演说,第二组大家发言这样更好。因此,要想改变集体的智慧,要改变沟通的方式。

  至于公司里的思想流,他认为,任何一个公司最有价值的是在沟通,但没有一家公司能够实现。现在主要沟通方式为电子邮件和面对面,面对面沟通要比电子邮件沟通更好,哪怕就是走廊上的碰面。

  他说,一个工作组的内部沟通,比员工个性、智商、经验,都要沟通。一是看大家彼此是不是足够尊重对方;第二方面,促进探索性的学习。如果彼此之间进行交流,组织将更有创造力和效率。

  还有一个有趣的观点,被彭特兰称作“社交网络上的思想流”。他说,觉得一个人聪明,他买啥我买啥,可以在社交网络里做这件事,到底最好的策略是 什么?有人自己买报纸投资,自己做决策;有的人社交属性更强;结果表明:自己做决策的人是很傻的,和每个人都交流也是很傻的,而找一小撮各种人交流是最挣 钱的。“更好的思想流等于更智慧的社会。”

  因此,可通过思想流的模式预测财富,反向研究,也能通过思想流的模式预测贫困。“这种思维方式和经济学思维不一样,经济学思维是独立的,这种是 互联互通的,经济增长的同时时间管理;你更加积极,你的朋友能够获得奖品,相互激励,比经济刺激有八倍以上的效率。因此,更好的是社交的网络刺激。”彭特 兰说,贫困的地方思想流是非常糟糕的,没有钱跟更有钱的人沟通,犯罪率高。

大数据的隐私与安全

  彭特兰说,他知道在中国人们担心各公司获取自己的数据。“这是个人的数据,我的行为,我跟别人的互动,个人的数据在未来的经济发挥更大的作用。”他认为,个人信息经济时代已经来临。

  每个人的数据、信息加起来量太大了,不可能每个人的所有数据被少数人掌握。能不能找到更好的方法,使个人受益,公司受益,组织收益?过去都是中央数据库进行调取;现在人们担心的是公司掌握了自己的信息,从后门出去了,可能流到几百个公司。

  彭特兰认为,个人的数据能够衡量资产的规模,这个数据是非常重要的。大数据的隐私保护是商业开发的根本要点,要把数据所有权还给所有人本身,而现在基本都在采集公司手里,应该由所有权人决定授权给谁、被采集给谁、由谁解读。

  他建议,首先公司采纳数据要有通知,然后知情人同意,个人要审核(公司是否做了承诺的事情),最后用户有权撤销,要求撤回是可以撤回的,“这在欧盟和美国都做了讨论。这是银行业的基础。”

时间: 2024-11-06 01:35:54

谁的大数据?的相关文章

关于MATLAB处理大数据坐标文件2017620

暑假已至,接下来组内成员将会各回各家,各找各妈,这肯定是对本次大数据比赛是很不利的. 接下来我会把任务分配给组员,当然任务会比起初的时候轻一点,因为我认为本次比赛的目的并不是我要求组员做什么,而是我的组员要求自己做什么! 我们现在主要接触的两门语言: MATLAB语言在数据处理方面很牛,它的画图功能也是杠杠的,尤其是3D画图 Python语言是一门近几年很火的语言,学好它对自己肯定只有益处,它的出生很晚,但是短短十多年,它已经稳居计算机语言前三名.尤其是现在的大数据时代,它的代码不仅简单易懂,而

【IT十八掌大数据】学习笔记

hive简介: -------------------- 0.big data的特点:4 Volumn variety velocity value 1.介绍 数据仓库    //online analyze process,在线分析处理. 用来查询和管理位于分布式存储设备上的大型数据集. Hive提供了一种类SQL语言--HiveQL(HQL)进行查询分析. HiveQL可进行插件式扩展. 擅长处理结构化数据.非结构化的数据没办法创建对应的模式. 位于hadoop之上,重点在于对大数据进行分析

Pandas中如何处理大数据?

近期的工作和Hive SQL打交道比较多,偶尔遇到一些SQL不好解决的问题,会将文件下载下来用pandas来处理,由于数据量比较大,因此有一些相关的经验可以和大家分享,希望对大家学习pandas有所帮助吧. 大文本数据的读写 有时候我们会拿到一些很大的文本文件,完整读入内存,读入的过程会很慢,甚至可能无法读入内存,或者可以读入内存,但是没法进行进一步的计算,这个时候如果我们不是要进行很复杂的运算,可以使用read_csv提供的chunksize或者iterator参数,来部分读入文件,处理完之后

一站式大数据敏捷分析平台

OpenFEA是一站式大数据敏捷分析系统,融合了内存计算.集群运算.机器学习.交互分析.可视化分析等技术,涵盖数据收集.数据探索.构建模型.模型发布等功能,分析性能卓越,使用简便,无需复杂编程即可快速实现大数据分析,助力数据分析师激扬数据,塑造业务标杆.          数据收集         OpenFEA能够融合更多类型的数据来进行运算,支持关系型数据源. Hadoop数据源.数据文件.第三方数据源. 支持数据源与接口/格式的双向自定义机制.表示各种复杂结构或LOAD和STORE各类数据

SPARK大数据计算BUG处理:

大数据计算BUG处理: 程序修改前资源情况: Driver : 1台 Worker : 2台 程序提交申请内存资源 : 1G内存 内存分配情况 : 1. 20%用于程序运行 2. 20%用于Shuffle 3. 60%用于RDD缓存 单条TweetBean大小 : 3k 1. 内存溢出 原因:因为程序会把所有的TweetBean查询出来并且合并(union),该操作在内存中进行.则某个campaign数据量较大时,如500W数据,则500W*10k=50G,超出内存限制. 解决方法: 先按数据量

联合国“全球脉动”计划 《大数据开发:机遇与挑战》

联合国"全球脉动"计划发布<大数据开发:机遇与挑战>2012 年 5 月 29 日,联合国"全球脉动"( Global Pulse)计划发布<大数据开发:机遇与挑战>报告,阐述了各国特别是发展中国家在运用大数据促进社会发展方面所面临的历史机遇和挑战,并为正确运用大数据提出了策略建议.1. 引言技术创新和数字设备的普及带来了"数据的产业革命".对日益扩大的数字数据的分析将揭示关于集体行为的潜在联系,并有可能改进决策方式.大数

大数据vs计算机

大数据有两个方向,一个是偏计算机的,另一个是偏经济的.你学过Java,所以你可以偏将计算机 基础1. 读书<Introduction to Data Mining>,这本书很浅显易懂,没有复杂高深的公式,很合适入门的人.另外可以用这本书做参考<Data Mining : Concepts and Techniques>.第二本比较厚,也多了一些数据仓库方面的知识.如果对算法比较喜欢,可以再阅读<Introduction to Machine Learning>.当然,还

SparkRDD解密(DT大数据梦工厂)

第一阶段,彻底精通Spark 第二阶段,从0起步,操作项目 Hadoop是大数据的基础设施,存储等等 Spark是计算核心所在 1.RDD:基于工作集的应用抽象 2.RDD内幕解密 3.RDD思考 不掌握RDD的人,不可能成为Spark的高手 绝对精通RDD,解决问题的能力大大提高 各种框架底层封装的都是RDD,RDD提供了通用框架 RDD是Spark的通用抽象基石 顶级SPark高手, 1.能解决问题.性能调优: 2.Spark高手拿Spark过来就是修改的 ==========基于工作集的应

底层战详解使用Java开发Spark程序(DT大数据梦工厂)

Scala开发Spark很多,为什么还要用Java开发原因:1.一般Spark作为数据处理引擎,一般会跟IT其它系统配合,现在业界里面处于霸主地位的是Java,有利于团队的组建,易于移交:2.Scala学习角度讲,比Java难.找Scala的高手比Java难,项目的维护和二次开发比较困难:3.很多人员有Java的基础,确保对Scala不是很熟悉的人可以编写课程中的案例预测:2016年Spark取代Map Reduce,拯救HadoopHadoop+Spark = A winning combat

DT大数据 梦工厂57讲

今日[DT大数据梦工厂视频]<第57讲:Scala中Dependency Injection实战详解> 土豆:http://www.tudou.com/programs/view/5LnLNDBKvi8/ 百度网盘:http://pan.baidu.com/s/1c0no8yk (DT大数据梦工厂scala的所有视频.PPT和代码在百度云盘的链接地址:http://pan.baidu.com/share/home?uk=4013289088#category/type=0&qq-pf-