大数据的红与黑

刘炼摄/光明网

资料图片

  世界正在步入IT革命和全球化的第二乐章—“云时代”。通过互联网,数据中心的巨大计算和存储功能像云彩般覆盖世界的每一个角落。今天,无论是企业还是个人都可以超越国境便利和自由地利用高性能的云计算系统,人类的生活、工作和创业环境骤然剧变。

—《步入云时代》,周牧之

  这是一个危机四伏的世界。自2008年美国次贷危机之后,紧接着就是欧洲主权债务危机。美国和欧洲两大世界经济的领航者都在衰退的边缘徘徊,亚 洲的日本经济形势难言乐观,可怕的是,人们根本看不到走出危机的出路。金砖国家虽表现亮眼,但在全球一体化加速的情况下,却也很难独善其身。全世界似乎都 被一种悲观的情绪所笼罩。人们不禁要问,希望在哪里?

  其实,每一个体系,每一种模式,虽然都是抽象的概念,但也像具体的物品一样,会耗损、退化。纵观历史,这些陈旧的生活方式和生产方式,最终都逃 脱不了被淘汰的命运。真正带来变革的总是科技的创新和发展。这就意味着,人们面对危机时,最需要的是新的发展方向和动力,而不是在老化的零件上修修补补。 正如,骑马横亘欧亚大陆耗时太长,如果眼光总在换一匹更好的马,或是让现有的马跑得更快,终究只是权益之计。人类真正需要的,其实是现如今的汽车、高铁、 飞机。而因特网出现之后,人们如果只是想说话聊天,那么连跨越大陆、海洋的必要性都没有了,因为网络让地理距离完全可以忽略不计。

  现如今,最热的话题就是云计算和大数据。人们对于这一变革的期待,完全可以媲美一次工业革命。人们常常觉得科技高深莫测,离自己颇有距离,但是实际上,大数据的时代在悄然中已经渗透到我们生活的方方面面。大数据最先被应用的领域,可能是消费领域,其次是电信。电信服务商们在尝试使用大数据,以期对它们资本设备的使用进行优化。

大数据的应用前景

  大数据在消费领域已经深深扎根。该领域首先使用大数据,因为大数据在这个领域的运用比较方便易行,不需要管制,而且消费者软件比其他软件的编写 也要快一些。例如,你在亚马逊上买书,亚马逊就会根据其他购书者的评价来给你推荐另外的书籍。在过去的几年里,正是消费者以及针对消费者的软件引领了大数 据产业的发展,人们自身的想法通过数据达到彼此融合。游戏公司创造各种各样的虚拟产品,利用大数据来分析消费者对虚拟产品的购买情况。举个例子,游戏公司 以人们买了多少虚拟雨伞作函数,来判断外面是不是在下雨。从这里可以看出,虚拟世界和真实世界之间有着十分有趣的联系。

  运用大数据的领域可以涉及生活的方方面面。通用电气公司曾有一个产业互联网设想,其中提到,怎么连接各方,怎么从喷气发动机和汽车引擎中获取信 息,以及怎么确保这些大型产业系统运行最优化。大数据在产业这里的运用可能是更为重要。同时,这一方面的运用真的能够通过改变产品的本质和外观,最终会改 变世界。

  通常来说,两个飞机引擎在飞行的过程中能产生5T的数据。如果系统能分析这些信息,并在飞行员发现引擎温度不对劲或者出现其他差错之前,就将信 息传递给飞行员,告知他引擎的运行状态,以及是否存在其他问题,那么就能让飞行安全得到进一步提高。航行当中的所有信息都能被适时告知非常的重要,它有时 候能救人一命,这在空难多发的今天,特别有意义。此外,在医疗保健领域,大数据能结合每个人不同的特性,帮助打造更优的医疗方案。

数据过滤的重要性

  数据很多,但无用的也很多。要么是没有价值的,要么就直接是错误的。使用大数据的技术需要解决数据清理问题。取用数据的第一件事情就是要清理数 据。甚至在将数据从数据源中取出放入存储地之前,要先确认你输入的数据是有效的。有时候,你要滤去5%的数据,有时候你甚至要忽略掉95%的数据,因为数 据实在是太庞杂了。人们不应该存储你不需要的数据,那样做很浪费。现在的技术可以帮助你将一件事情分成多步,使人们可以在存储和加工前,去除许多你不需要 的数据。

  许多企业都希望能跻身于大数据的变革中来。许多人认为他们需要做的,就是取用他们能获取的所有数据。这其实是不经济的,因为数据量实在太大了。 所以,需要更明确自身的需求。就像你在烘焙蛋糕一样,你可能想把各种佐料都加进去,但是你不会在里面放红辣椒,因为这和烘焙蛋糕不相关。所以,要以大数据 为基础解决问题,你就会希望去除不相关的数据,而把精力集中在那些有价值的数据上。

大数据对运算的挑战

  关于大数据有一个很有趣的地方。“大数据”这个名字来源于两个方面。一方面是源于数据繁多,也就是我们为什么称之为大数据。另一方面是源于数据的无序性。过去,计算机只能处理以一种形式输入的数据。当你输入的数据形式不对时,你要去重新调整它。大数据的本质就是能处理那些并非必要的数据。自从人们和企业开始处理非结构化的数据,他们就发明出了新的技术工具,比如说分布式计算。这些新的技术工具使得人们可以将数据以非结构化的形式储存。

  因为数据繁多,你不能总是带着一台主机,或者通过一台超级计算机来浏览这些数据。你要做的是,将大问题化解成一系列的小问题,然后采用更加高效 的运算体系来一一破解这些小问题。这就是“并行运算”。事实上,如果你去一趟谷歌的数据中心,你甚至看不见一台主机,你看到的是许许多多的,和你的电脑一 样的主板。目前正在探索的领域是:将大问题拆解成小问题一一解决之后,再把结果合并在一起的能力。

云计算的未来

  现在有许多关于利用大数据的设想和大计划,但是为了实现这些,首先需要大运算。问题的关键在于,怎样才能构建一个比70年代造出的计算机还要高 效得多的运算系统呢?人们通过云计算来实现大运算。云计算使得哪怕凭借很便宜的组件,也能够集合无穷大的处理能力。人们不再需要购买一个新的主板,因为一 个数据中心或在多个数据中心的所有计算机都可以在云端为我所用。你想要多少处理能力,可以获取多少,突然之间,你要应付成千上万的硬盘和主板。当你不再需 要这些处理能力的时候,你就把它们放回原处。云中心在不停运转。确保这一运转是顺畅的就很重要,而这也是新技术的研究发展方向。

  如果每个人都开始依赖这个体系,那么就需要保证具备足够的处理能力。就好比,在炎热的夏天,人们需要保证全市所有空调系统的电力供给。一旦出现 意外,导致大家都不能使用空调,则是人们都不愿意看到的结果。在计算机运作中,效用计算就是这种“供给”。公共能源企业为我们提供电力、水和其他能源,而 云计算企业为我们提供计算能力。过去,如果一家公司想要一个大型软件,就需要购买成吨的服务器。今天,人们并不需要购买那么多的服务器了,因为可以租用, 或是从运算服务的公司购买虚拟服务器。

大数据与黑客

  每个人都担心网站黑客,害怕数据泄露。想象一下,如果有网络黑客攻击了北京电网,不管是出于恶作剧还是出于恐怖袭击的目的,他们都可以使得北京的电力系统陷入崩溃。

  数据安全领域,实际上是一个硝烟弥漫的战场,但人们却并不一定清楚。在这个战场上,有努力保护数据安全的好人,也有黑客和企图闯入数据系统进行 破坏的坏人。道高一尺,魔高一丈,这是一个无休止的问题。科技企业要先人一步,确保所掌握的技术比想要破坏数据的黑客和软件恐怖分子领先。尽管目前存在许 多种闯入电脑系统的方式,但是在系统真正受到侵害时,人们要确保有所察觉。以前病毒是这种危害唯一的来源,但不幸的是,目前这样的来源很多。

  在衡量数据遭侵害的风险和数据带来的效用孰轻孰重时,总体而言,好的方面占上风。人们要做的只是确保对数据采取保护措施了。电子银行是一个经典 的例子。这想起来其实挺可怕的,因为人们也可能闯入你的电子银行,偷走你的钱财。但是,你的生活现在能离得开电子银行吗?现在,我们考虑走回头路已经为时 过晚,我们已经做不到了。你也不希望在马路上发生车祸,但是你更不愿意放弃开车。所以,这个产业最终会创造出许许多多的产品,来确保数据不受侵害,并保证 各方面的安全。

大数据的红与黑

时间: 2024-10-15 02:32:24

大数据的红与黑的相关文章

关于MATLAB处理大数据坐标文件2017620

暑假已至,接下来组内成员将会各回各家,各找各妈,这肯定是对本次大数据比赛是很不利的. 接下来我会把任务分配给组员,当然任务会比起初的时候轻一点,因为我认为本次比赛的目的并不是我要求组员做什么,而是我的组员要求自己做什么! 我们现在主要接触的两门语言: MATLAB语言在数据处理方面很牛,它的画图功能也是杠杠的,尤其是3D画图 Python语言是一门近几年很火的语言,学好它对自己肯定只有益处,它的出生很晚,但是短短十多年,它已经稳居计算机语言前三名.尤其是现在的大数据时代,它的代码不仅简单易懂,而

【IT十八掌大数据】学习笔记

hive简介: -------------------- 0.big data的特点:4 Volumn variety velocity value 1.介绍 数据仓库    //online analyze process,在线分析处理. 用来查询和管理位于分布式存储设备上的大型数据集. Hive提供了一种类SQL语言--HiveQL(HQL)进行查询分析. HiveQL可进行插件式扩展. 擅长处理结构化数据.非结构化的数据没办法创建对应的模式. 位于hadoop之上,重点在于对大数据进行分析

Pandas中如何处理大数据?

近期的工作和Hive SQL打交道比较多,偶尔遇到一些SQL不好解决的问题,会将文件下载下来用pandas来处理,由于数据量比较大,因此有一些相关的经验可以和大家分享,希望对大家学习pandas有所帮助吧. 大文本数据的读写 有时候我们会拿到一些很大的文本文件,完整读入内存,读入的过程会很慢,甚至可能无法读入内存,或者可以读入内存,但是没法进行进一步的计算,这个时候如果我们不是要进行很复杂的运算,可以使用read_csv提供的chunksize或者iterator参数,来部分读入文件,处理完之后

一站式大数据敏捷分析平台

OpenFEA是一站式大数据敏捷分析系统,融合了内存计算.集群运算.机器学习.交互分析.可视化分析等技术,涵盖数据收集.数据探索.构建模型.模型发布等功能,分析性能卓越,使用简便,无需复杂编程即可快速实现大数据分析,助力数据分析师激扬数据,塑造业务标杆.          数据收集         OpenFEA能够融合更多类型的数据来进行运算,支持关系型数据源. Hadoop数据源.数据文件.第三方数据源. 支持数据源与接口/格式的双向自定义机制.表示各种复杂结构或LOAD和STORE各类数据

SPARK大数据计算BUG处理:

大数据计算BUG处理: 程序修改前资源情况: Driver : 1台 Worker : 2台 程序提交申请内存资源 : 1G内存 内存分配情况 : 1. 20%用于程序运行 2. 20%用于Shuffle 3. 60%用于RDD缓存 单条TweetBean大小 : 3k 1. 内存溢出 原因:因为程序会把所有的TweetBean查询出来并且合并(union),该操作在内存中进行.则某个campaign数据量较大时,如500W数据,则500W*10k=50G,超出内存限制. 解决方法: 先按数据量

联合国“全球脉动”计划 《大数据开发:机遇与挑战》

联合国"全球脉动"计划发布<大数据开发:机遇与挑战>2012 年 5 月 29 日,联合国"全球脉动"( Global Pulse)计划发布<大数据开发:机遇与挑战>报告,阐述了各国特别是发展中国家在运用大数据促进社会发展方面所面临的历史机遇和挑战,并为正确运用大数据提出了策略建议.1. 引言技术创新和数字设备的普及带来了"数据的产业革命".对日益扩大的数字数据的分析将揭示关于集体行为的潜在联系,并有可能改进决策方式.大数

大数据vs计算机

大数据有两个方向,一个是偏计算机的,另一个是偏经济的.你学过Java,所以你可以偏将计算机 基础1. 读书<Introduction to Data Mining>,这本书很浅显易懂,没有复杂高深的公式,很合适入门的人.另外可以用这本书做参考<Data Mining : Concepts and Techniques>.第二本比较厚,也多了一些数据仓库方面的知识.如果对算法比较喜欢,可以再阅读<Introduction to Machine Learning>.当然,还

SparkRDD解密(DT大数据梦工厂)

第一阶段,彻底精通Spark 第二阶段,从0起步,操作项目 Hadoop是大数据的基础设施,存储等等 Spark是计算核心所在 1.RDD:基于工作集的应用抽象 2.RDD内幕解密 3.RDD思考 不掌握RDD的人,不可能成为Spark的高手 绝对精通RDD,解决问题的能力大大提高 各种框架底层封装的都是RDD,RDD提供了通用框架 RDD是Spark的通用抽象基石 顶级SPark高手, 1.能解决问题.性能调优: 2.Spark高手拿Spark过来就是修改的 ==========基于工作集的应

底层战详解使用Java开发Spark程序(DT大数据梦工厂)

Scala开发Spark很多,为什么还要用Java开发原因:1.一般Spark作为数据处理引擎,一般会跟IT其它系统配合,现在业界里面处于霸主地位的是Java,有利于团队的组建,易于移交:2.Scala学习角度讲,比Java难.找Scala的高手比Java难,项目的维护和二次开发比较困难:3.很多人员有Java的基础,确保对Scala不是很熟悉的人可以编写课程中的案例预测:2016年Spark取代Map Reduce,拯救HadoopHadoop+Spark = A winning combat