大数据有什么用

国家图书馆的藏书量有2600万册,如果从数据来看的话,一个家庭一年产生的数据相当于半个国家图书馆的数据总量。工业和信息化部电信研究院互联网中心主任何宝宏认为,当一个时代的人没有办法用那个时代的工具来处理的数据就可以称为大数据。而大数据并非现在才出现,现在的大数据是现代人用现代工具处理不了的数据。其实古人也会遇到同样的问题,比如人口普查,中国在东汉时期就有几千万人,这显然是大数据。

中国通信学会副理事长兼秘书长张新生认为,推动大数据大量产生的核心动力,是人们渴望能将现实物理社会存在的东西记录下来,能够测量它,并且能够分析。随着云计算的发展,人们会利用云平台,通过先进技术从海量的信息中挖掘出有质量、有价值的数据,从而使大量有价值的数据转化成知识。

在谈到大数据的时候,人们往往知道的就是数据很大,但是它具体有什么特征呢?张新生认为,大数据的特征应该有以下几个方面。首先是量特别大,现在的数据计算单位,已经从GB到达了TB、PB,甚至是EB了;其次是多样性,绝大多数大数据是非结构性的,其种类十分复杂,我们现在的技术手段还没法对此进行处理;再次是速度,数据产生和传送的频率非常快;最后是价值,从大量的低质量、低价值的数据中获取知识,犹如从大海中捞针,获取数据成本很高,但有待挖掘价值大。

大数据有什么用

当你打开一个网页的时候,里面弹出了你个人比较喜欢的产品广告——其实,这就是一个利用大数据进行精准营销的例子。

哪些组织或者应用程序掌握了我们的“痕迹”呢?中国联通网络技术研究院首席专家唐雄燕举例说,百度掌握你的隐私,微信知道你的社交圈子,淘宝了解你的购物习惯,移动电信联通三大运营商存有你的通话记录和上网记录,银联知道你在哪里用了信用卡,定位软件则知道你现在何方……

大数据给企业和商业带来了巨大的价值,比如在互联网金融领域降低了不良贷款率,减少了交易成本。谷歌利用大数据预测季节性流感的爆发和传播。AT&T将用户在WiFi网络中的地理位置、网络浏览历史记录以及使用的应用等数据销售给广告客户。当用户距离商家很近时,就有可能收到该商家提供的折扣很大的电子优惠券,等等。

但是,作为大数据的产生者,广大公众能够从大数据的发展中获得什么呢?大数据的发展关乎广大公众的切实利益,举例来说,专家们认为利用大数据可以有效地实现“智慧医疗”,为全面的个人健康管理进行服务;个人可以方便获取医院的就诊信息、检查数据、医疗影像等,以及个人健康的历史数据;为慢性病患者提供远程数据分析和服务;辅助临床诊断和用药决策;为公共卫生机构提供及时的统计分析;以及为药品研发、治疗方案设计提供数据分析。随着大数据的发展,广大公众的生活也将变得更加便利。

我们该怎么做

刚刚买完房子的你,突然收到很多房产开发商或者代理商的电话和短信,这时你肯定感觉自己的信息被泄露了。对于大数据时代来说,广大公众会更加关注自己的隐私,而我们应该如何保护自己的隐私呢?

专家们认为,大数据分析时代关注的是用户的特征,而不是具体的信息。比如说,通过大数据,希望知道用户是一个处于20—30岁年龄段生育过子女并接受过高等教育的女性,而不是想知道她姓甚名谁,今年多大,有几个小孩。还有一点,就是大数据的采集和处理主要是由一些大型的公司在做,它们有自己严格的规范和流程,以确保信息安全。

专家们也给出了一些具体的建议:首先,国家相关的法律也对个人隐私的保护问题进行了相应的规定和约束,2013年1月份全国人大通过了关于个人用户隐私保护的决定,同时工信部根据全国人大的决定,出台了关于互联网和电信网个人信息保护的条例以保护用户的隐私,这些都对个人隐私的保护具有一定的作用。其次,企业要履行自己的社会责任,通过特定的技术手段对用户信息进行不可逆的处理。一旦发生用户信息外泄,企业要承担相应的责任。最后,用户也需要注意保护自己的隐私。一些信息泄露事件的出现,也与广大用户本身对个人信息的保护意识不足有一定关系。所以,在大数据时代,迫切需要向用户开展加强自身信息保护意识的教育,也就是安全上网的知识普及和教育。

不论你接受还是不接受它,大数据就在那里,不近不远。大数据已经在我们的生活当中,给我们的生活带来了巨大影响。一方面,我们要加强个人隐私的保护,另一方面,也要充分适应大数据给我们带来的变革,享受它给每个人的生活带来的便利。

【了解更多商业智能行业资讯,商业智能解决方案以及商业智能软件下载请访问FineBI商业智能官网www.finebi.com】

时间: 2024-10-12 20:52:58

大数据有什么用的相关文章

关于MATLAB处理大数据坐标文件2017620

暑假已至,接下来组内成员将会各回各家,各找各妈,这肯定是对本次大数据比赛是很不利的. 接下来我会把任务分配给组员,当然任务会比起初的时候轻一点,因为我认为本次比赛的目的并不是我要求组员做什么,而是我的组员要求自己做什么! 我们现在主要接触的两门语言: MATLAB语言在数据处理方面很牛,它的画图功能也是杠杠的,尤其是3D画图 Python语言是一门近几年很火的语言,学好它对自己肯定只有益处,它的出生很晚,但是短短十多年,它已经稳居计算机语言前三名.尤其是现在的大数据时代,它的代码不仅简单易懂,而

【IT十八掌大数据】学习笔记

hive简介: -------------------- 0.big data的特点:4 Volumn variety velocity value 1.介绍 数据仓库    //online analyze process,在线分析处理. 用来查询和管理位于分布式存储设备上的大型数据集. Hive提供了一种类SQL语言--HiveQL(HQL)进行查询分析. HiveQL可进行插件式扩展. 擅长处理结构化数据.非结构化的数据没办法创建对应的模式. 位于hadoop之上,重点在于对大数据进行分析

Pandas中如何处理大数据?

近期的工作和Hive SQL打交道比较多,偶尔遇到一些SQL不好解决的问题,会将文件下载下来用pandas来处理,由于数据量比较大,因此有一些相关的经验可以和大家分享,希望对大家学习pandas有所帮助吧. 大文本数据的读写 有时候我们会拿到一些很大的文本文件,完整读入内存,读入的过程会很慢,甚至可能无法读入内存,或者可以读入内存,但是没法进行进一步的计算,这个时候如果我们不是要进行很复杂的运算,可以使用read_csv提供的chunksize或者iterator参数,来部分读入文件,处理完之后

一站式大数据敏捷分析平台

OpenFEA是一站式大数据敏捷分析系统,融合了内存计算.集群运算.机器学习.交互分析.可视化分析等技术,涵盖数据收集.数据探索.构建模型.模型发布等功能,分析性能卓越,使用简便,无需复杂编程即可快速实现大数据分析,助力数据分析师激扬数据,塑造业务标杆.          数据收集         OpenFEA能够融合更多类型的数据来进行运算,支持关系型数据源. Hadoop数据源.数据文件.第三方数据源. 支持数据源与接口/格式的双向自定义机制.表示各种复杂结构或LOAD和STORE各类数据

SPARK大数据计算BUG处理:

大数据计算BUG处理: 程序修改前资源情况: Driver : 1台 Worker : 2台 程序提交申请内存资源 : 1G内存 内存分配情况 : 1. 20%用于程序运行 2. 20%用于Shuffle 3. 60%用于RDD缓存 单条TweetBean大小 : 3k 1. 内存溢出 原因:因为程序会把所有的TweetBean查询出来并且合并(union),该操作在内存中进行.则某个campaign数据量较大时,如500W数据,则500W*10k=50G,超出内存限制. 解决方法: 先按数据量

联合国“全球脉动”计划 《大数据开发:机遇与挑战》

联合国"全球脉动"计划发布<大数据开发:机遇与挑战>2012 年 5 月 29 日,联合国"全球脉动"( Global Pulse)计划发布<大数据开发:机遇与挑战>报告,阐述了各国特别是发展中国家在运用大数据促进社会发展方面所面临的历史机遇和挑战,并为正确运用大数据提出了策略建议.1. 引言技术创新和数字设备的普及带来了"数据的产业革命".对日益扩大的数字数据的分析将揭示关于集体行为的潜在联系,并有可能改进决策方式.大数

大数据vs计算机

大数据有两个方向,一个是偏计算机的,另一个是偏经济的.你学过Java,所以你可以偏将计算机 基础1. 读书<Introduction to Data Mining>,这本书很浅显易懂,没有复杂高深的公式,很合适入门的人.另外可以用这本书做参考<Data Mining : Concepts and Techniques>.第二本比较厚,也多了一些数据仓库方面的知识.如果对算法比较喜欢,可以再阅读<Introduction to Machine Learning>.当然,还

SparkRDD解密(DT大数据梦工厂)

第一阶段,彻底精通Spark 第二阶段,从0起步,操作项目 Hadoop是大数据的基础设施,存储等等 Spark是计算核心所在 1.RDD:基于工作集的应用抽象 2.RDD内幕解密 3.RDD思考 不掌握RDD的人,不可能成为Spark的高手 绝对精通RDD,解决问题的能力大大提高 各种框架底层封装的都是RDD,RDD提供了通用框架 RDD是Spark的通用抽象基石 顶级SPark高手, 1.能解决问题.性能调优: 2.Spark高手拿Spark过来就是修改的 ==========基于工作集的应

底层战详解使用Java开发Spark程序(DT大数据梦工厂)

Scala开发Spark很多,为什么还要用Java开发原因:1.一般Spark作为数据处理引擎,一般会跟IT其它系统配合,现在业界里面处于霸主地位的是Java,有利于团队的组建,易于移交:2.Scala学习角度讲,比Java难.找Scala的高手比Java难,项目的维护和二次开发比较困难:3.很多人员有Java的基础,确保对Scala不是很熟悉的人可以编写课程中的案例预测:2016年Spark取代Map Reduce,拯救HadoopHadoop+Spark = A winning combat

DT大数据 梦工厂57讲

今日[DT大数据梦工厂视频]<第57讲:Scala中Dependency Injection实战详解> 土豆:http://www.tudou.com/programs/view/5LnLNDBKvi8/ 百度网盘:http://pan.baidu.com/s/1c0no8yk (DT大数据梦工厂scala的所有视频.PPT和代码在百度云盘的链接地址:http://pan.baidu.com/share/home?uk=4013289088#category/type=0&qq-pf-