大数据随笔(一)

一、概述

谈到大数据,离不开云计算、物联网、数据中心这些关键基础技术。

云计算是分布式处理、并行处理和网格计算的,或者说是这些计算机科学概念的商业实现。狭义上云计算指IT基础设施的交付和使用模式,即通过网络以按需、易扩展的方式获得所需资源;广义上云计算指服务的交付和使用模式,即通过网络以按需、易扩展的方式获得所需服务。云计算强调云存储和计算能力,是一个动态的过程。大数据是计算的对象,强调的是服务器的存储能力和计算能力。

物联网的基本思想是,将现实世界中的不同物体,比如RFID、条码、传感器、移动电话等,通过互联网连接起来,实现信息交换和通信,使其相互之间进行协作来完成共同的目的。与互联网相比,物联网具有3个显著特点:1.终端设备多样化;2.数据采集自动化;3.终端智能化。

数据中心的主要作用是对企业的业务系统和数据资源进行集中、集成、共享、运营和管理。数据中心一般由四部分组成:机房场地、辅助设备、IT设备、运维。在大数据时代,数据中心不仅是集中存储数据的组织机构,还应承担更多的责任--采集数据、管理数据、组织数据,尽可能发挥数据的价值和作用。

二、大数据四个阶段

大数据价值链一般分为四个阶段:数据生成、数据采集、数据存储以及数据分析

1. 数据生成

“大数据是指通过各种纵向或分布式数据源生成的规模庞大、多样化和复杂的数据集”,数据源包括传感器、视频、点击流或所有其他可用的数据源。

2. 数据采集

大数据采集包括数据收集、数据传输和数据预处理。

2.1 数据收集

数据收集是指利用专用的数据收集技术,以从具体的数据生产环境中获取原始数据。常用的收集数据方法有:

1.日志文件

是由数据源系统自动生成的记录文件,用以记录指定的文件格式中的活动,以供后续分析。

2.传感器

主要用于测量物理量,并将物理量转换成可读的数据信号,以供后续处理。

有线传感器网络比较普遍;无线传感器网络(WSNs)已应用于多种应用程序中,无线传感器网络通常包含大量空间分布式传感器节点,这些节点都是采用电池供电的微型设备。

3.网络数据采集方法

网络数据采集主要是采用网络爬虫、分词系统、任务与索引系统等技术进行综合运用来完成的。

2.2 数据传输

数据传输分为两个阶段:外部传输和内部传输。

1.外部传输

全球大部分地区的物理网络基础架构都是由大容量、高速率、高性价比的光纤传输系统组成的。基于IP的WDM(波分复用)网络架构,目前骨干网中已经部署有单通道速率高达40Gb/s的WDM光传输系统,现在已有100Gb/s的商用化接口,预计很快就会实现100Gb/s速率的系统。首次出现在无线系统中的正交频分复用(OFDM),已被认为是未来高速光传输技术的主要候选技术之一。

2.内部传输

当前大多数数据中心内部网络都是基于商品交换来构建标准的胖树型2层或3层结构的。

近年来数据中心网络的光互联引起了极大关注,光互联被认为是一种高吞吐量、低延迟、低能耗的解决方案。目前,光学技术只被用于数据中心的点至点链接中。这些链接是基于低成本的多模光纤(MMF)来实现交换机的连接,带宽高达10Gb/s。光互联能够提供Tb/s级的传输带宽,还能减少能源消耗。

2.3 数据预处理

数据预处理技术:

1.集成

数据集成是现代商业信息学的基石,涉及不同来源数据的结合,以及为用户提供统一的数据视图。

有两种方法已经获得了认可:数据仓库和数据联邦。数据仓库也称为ETL,包括三个步骤:提取、转换和加载。

2.清理

数据清理是一个识别不准确、不完整、或不合理的数据,然后对其进行修改或删除,以提高数据质量的过程。

3.冗余消除

数据冗余是指数据的重复或多余,这种现象常见于各种数据集中。

3. 数据存储

数据存储系统可分为两部分:基础硬件和数据存储方法或机制。

3.1

使用分布式系统保存海量数据时,需要考虑三个方面的因素:

(1)一致性:保证多个副本的数据完全一致的性质为一致性

(2)可用性:在系统中的一部分节点出现故障以后,系统的整体不影响客户端的读/写请求称为可用性

(3)分区容错性:当一个网络因为故障而分解为多个部分的时候,分布式存储系统仍然能够工作

CAP理论指出:一个分布式系统不可能同时满足一致性、可用性和分区容错性这三个需求,最多只能同时满足两个。因此可以分为CA系统、CP系统和AP系统。

CA系统:舍弃了分区容错性,一般情况下认为CA系统为单服务器的存储系统。

CP系统:舍弃了可用性,比较适用于访问量相对不是特别大但是对数据的准确性要求非常高的场景,如交易数据。较常见的有BigTable、Hbase等。

AP系统:没有强一致性特点,在一些高频率请求且对准确性要求不是非常高的环境下比较常用,比如在线社交网络系统。AP系统可以保证最终一致性,所以对实时性要求不高的情况下也可以使用AP系统来提高性能。目前比较著名的AP系统包括Dynamo、Cassandra等。

3.2 大数据存储机制

3.2.1 数据库技术

传统的关系型数据库已不能应对大数据的种类和规模带来的挑战,NoSQL数据库开始被更多的应用于大数据环境下。NoSQL数据库有以下一些基本特征:模式自由、支持简单复制、简单的API、最终的一致性和支持大容量数据。

(1)键-值存储数据库

由一个简单的数据模型组成,数据按照键/值对的形式进行存储。每个键是独一无二的,客户根据键输入查询值。键值数据库通过将关键词分布给节点来提供可扩展性。

1)Dynamo系统

2)Voldemort系统

(2)列式存储数据库

按列而不是行来存储和处理数据。列和行都被分割在多个节点,以此实现可扩展性。

1)Bigtable系统

2)Cassandra系统

(3)文档数据库

与键-值存储数据库相比,文档数据库能支持更为复杂数据的存储。

1)MongoDB系统

2)SimpleDB系统

3)CouchDB系统

3.2.2 数据库编程模型

海量数据集通常通过广域存储在数百甚至数千台商用服务器中,传统的并行模型(如MPI、OpenMP)很难执行如此大规模的并行程序。现在已经提出了一些数据并行编程模型来解决特定领域的应用。这些模型有效地改善了NoSQL数据库的性能并减少了与关系型数据库之间的性能差距,已经成为海量数据分析的基石。

(1)MapReduce模型

(2)Dryad模型

(3)ALL-Pairs模型

(4)Pregel模型

原文地址:http://blog.51cto.com/likerock/2128271

时间: 2024-10-29 20:52:10

大数据随笔(一)的相关文章

大数据随笔(二)

Hive Hive是一个构建在Hadoop上的数据仓库框架,设计目的是让精通SQL的分析师能够对存放在HDFS上的大规模数据集执行查询操作. Hive把数据组织为表,通过这种方式为存储在HDFS的数据赋予结构,并将表模式等元数据存储在名为Merastore的数据库中.基于这种类似关系的数据模型,Hive把SQL查询转换为一系列在Hadoop集群上运行的MapReduce作业. Hive体系结构如下图所示: 2.YARN 从0.23版本开始,新的Hadoop MapReduce框架被命名为YARN

[随笔]一年热点记录,大数据

春节:谁穿了什么,谁唱了什么,什么火? 高考:作文题目是什么,哪里又作弊了. 中秋.端午:中国节日和外国节日,高速是否免费,食品安全. 人生的轮回也许就是这样. 大数据能分析的出来这些么? 商机在哪里,做IT的你,能看得出来吗?能有对应的产品吗? 请根据以上描述,写出五个项目的开题报告及项目建议书.

关于大数据和古中国的一丝小想法随笔

只看了几篇文档,其实还是稀里糊涂的.只是对于大数据有两个词让我印象特别的深刻,一个是"数据挖掘",还有一个便是"趋势".关于统计,关于趋势,关于预测,我想说,我个人,不由得想起,中国的一部伟大著作----<易>.这样写,我不懂会不会有人明白我的意思.可能,我在自言自语吧!

随笔一:大数据的特点、来源与数据呈现方式

浏览2019春节各种大数据分析报告 春节人口迁徙大数据报告! 分析所采用数据的来源有哪些? 交通运输部公布的数据.腾讯地图.腾讯位置服务.2017年主要城市流动人口排行.2017年主要城市人口排行.<中国流动人口发展报告2018>.三大城市群省际流动人口主要来源地图.春节北京.上海.广州人口迁出流量图.中国人口流动出现四大趋势.2019携程大数据.携程问卷调查. 大数据的呈现方式有哪些? 统计图.问卷调查.流量图.论文报告. 大数据的特点是什么? 数据体量巨大.数据类型繁多.价值密度低.处理速

(已实现)相似度到大数据查找之Mysql 文章匹配的一些思路与提高查询速度

需求,最近实现了文章的原创度检测功能,处理思路一是分词之后做搜索引擎匹配飘红,另一方面是量化词组,按文章.段落.句子做数据库查询,功能基本满足实际需求. 接下来,还需要在海量大数据中快速的查找到与一句或者一段话最相关的文章.段落. 上一篇随笔里记录有当时的一些想法,今天下午按想法具体实现并测试了一次,速度比直接分组查询肯定快了很多很多,回顾下我的实现步骤: 压缩"语料库,即提取特征词或词频,做量化处理之后以“列向量”形式保存到数据库:然后按前N组词拼为向量组,以供查询使用,即组合为1到N字的组合

SqlSever大数据分页

在sql sever中大数据的分页一直是难以处理的一块,利用id自增列分页也存在不足之处.从一个相对全面的分页看,sql sever2005中新增的row_number()函数解决了这个问题.还是从一个实际项目开始介绍吧.中国铁建股份公司的项目表中数据很大,开发之初用的是GridView控件自带的分页,在运行一年以后,点击下一页终于是难以等待了,系统需要优化.对于分页的改进是业务的需要.于是,我采用了Row_number()函数分页.也算一解了燃眉之急. 说明:该篇文章只是一个案例的说明,更详细

100篇大数据文章[转]

摘要:PayPal高级工程总监Anil Madan写了篇大数据的文章,一共有100篇大数据的论文,涵盖大数据技术栈,全部读懂你将会是大数据的顶级高手. 开源(Open Source)用之于大数据技术,其作用有二:一方面,在大数据技术变革之路上,开源在众人之力和众人之智推动下,摧枯拉朽,吐故纳新,扮演着非常重要的推动作用.另一方面,开源也给大数据技术构建了一个异常复杂的生态系统.每一天,都有一大堆"新"框架."新"类库或"新"工具,犹如雨后春笋般涌

读完这100篇论文,你也是大数据高手!

引言 PayPal高级工程总监Anil Madan写了这篇大数据的文章,一共有100篇大数据的论文,涵盖大数据技术栈,全部读懂你将会是大数据的顶级高手.当然主要是了解大数据技术的整个框架,对于我们学习大数据有莫大好处. 开 源(Open Source)用之于大数据技术,其作用有二:一方面,在大数据技术变革之路上,开源在众人之力和众人之智推动下,摧枯拉朽,吐故纳新,扮演着非常重要的 推动作用.另一方面,开源也给大数据技术构建了一个异常复杂的生态系统.每一天,都有一大堆“新”框架.“新”类库或“新”

大数据高效复制的处理案例分析总结

一个老客户提出这样的需求,希望将SQLServer中的某个表的数据快速复制到SQLite数据库里面以便进行定期的备份处理,数据表的记录大概有50多万条记录,表有100个字段左右,除了希望能够快速做好外,效率是第一位的,他自己测试总是在一两个小时的时间以上.客户提出这样的需求,我我觉得肯定是没有很好的利用事务的特性,否则速度应该会快得多,但是具体能快到什么程度,心里也不太确定.于是按照这个要求,把这样大的表数据复制作为一个案例来进行研究,最终大数据的复制处理,不到20分钟就可以完成全部数据的复制更