大数据--第一章--概论

概论

B  KB  MB  GB  TB  PB  EB  ZB

大数据的三大特征

数量(Volume)

种类(Variety)

速度(Velocity)

Apache Hadoop 黄色大象。

Apache Lucene

Nutch 网页抓取、解析功能。大规模分布式集群。负载均衡。

2003年Google两篇论文:

  • Google File System
  • MapReduce:Simplified Data Processing on Large Clusters

时间: 2024-10-13 01:40:21

大数据--第一章--概论的相关文章

计算机组成原理和结构图式(第一章 概论)

计算机组成原理和结构图式(第一章 概论) 1.计算机硬件概念 CPU(中央处理器) 构成:运算器.控制器.寄存器组 运算器:算术运算(定点数.浮点数)和逻辑运算 控制器:微命令(组合逻辑和微程序控制方式) 寄存器组:存放数据信息和控制信息 存储器 缓存>主存>外存 主存:固定地址CPU按地址访问,与CPU合称主机 外存:先调入主存 高速缓存:CPU和主存之间,集成在CPU内部 输入/输出设备(Input/Output,I/O)外设 总线 分时共享:一发多收 系统总线分为 (1)数据总线(运算器

邹欣老师的《构建之法》第一章“概论”学习笔记与自我随笔

刚读完了邹欣老师的<构建之法>第一章“概论”,四个字形容:酣畅淋漓. 概论将自己的一些模糊的认识清晰化,用准确的文字描述了出来,填补了脑海里的一些灰色地带. 总结一下:概论通俗地阐述了编程.软件.计算机科学.软件工程的联系与区别,简单说,编程是一项具体动作,软件是供人使用的产品,具体有很多种类型,而计算机科学是偏向理论研究,软件工程就像其他工程学一样,是在一定条件下合理配置资源达到生产软件的目的. 本人作为一名从小对编程.软件.计算机感兴趣的Nerd,虽然大学专业与此无关,但刚毕业时签了一份软

技术不是大数据第一生产力,数据交易才能带来应用爆发

导言:我从事大数据工作10余年,很多时候和圈内朋友谈及大数据,大家首先都谈到的是数据挖掘和人工智能算法,或是hadoop的架构.我也曾深陷这样的误区,认为"只要会写算法.实现架构就是大数据的全部":但我这些年的应用实践中,越来越发现,大数据发展最大的瓶颈不是技术,而是高质量数据源的获取.提供和交易环节没有被打通. 技术不是关键高质量的数据源永远是第一位 大数据行业很多新人,甚至业内多年从业者都有这个误区:认为算法.模型很重要.而我认为,即使技术达到世界顶级水平,它依旧不是大数据价值引擎

构建之法学习(第一章 概论)

初读邹欣老师的<构建之法>,却发现并没有像其它大多数软件工程教材一样偏重理论知识,而是大量引用实例,将实践与理论相结合,一改原本的空洞.乏味,反而更多的是趣味性. 通过对于第一章的自我学习,总结了一些知识点: 1.软件=程序+软件工程 程序=数据结构+算法    程序,就是指的源程序,是可执行代码.软件构建,构建成机器能懂的可执行代码,要有合理的软件架构,软件设计与实现,还要有各种文件和数据来描述各个程序文件之间的依赖关系,编译参数,链接参数等等. 软件工程是把系统的.有序的.可量化的方法应用

现代软件工程 第一章 概论 第1题——邓琨

题目要求: 第一步: 像阿超那样,花二十分钟写一个能自动生成小学四则运算题目的命令行 “软件”, 分别满足下面的各种需求.下面这些需求都可以用命令行参数的形式来指定: a) 除了整数以外,还要支持真分数的四则运算. (例如:  1/6 + 1/8 = 7/24) b) 让程序能接受用户输入答案,并判定对错. 最后给出总共 对/错 的数量. c) 逐步扩展功能和可以支持的表达式类型,最后希望能支持下面类型的题目 (最多 10 个运算符,括号的数量不限制):         25 - 3 * 4 -

第一章 概论

1.1 软件=程序+软件工程 众所周知,"程序=数据结构+算法", 然而在实际应用中,这一说法又显得有些空泛.程序,在这里指的是源程序,就是一行行的代码.它们是建立在数据结构上的一些算法.程序还要对数据进行操作,这些数据有些是静态的(例如软件的图标.提示信息),有些是动态的(例如程序生成的随机数字.程序通过网络下载的数据.用户的文字或语音输入等).但是光有代码和静态数据还是不行,工程师要把它们构建成为机器能懂的可执行代码.构建不仅仅是cc和link命令,一个复杂的软件不但要有合理的软件

现代软件工程 第一章 概论 第11-15题(白文俊)

11.Software,  Software Engineering 等名词的来源,请问 “软件” 和 “软件工程” 这些词汇是如何出现的 - 何时.何地.何人 在看过给的链接原文之后我得出这样的结论: ”software”即“软件”这一名词的使用最早是在1953年8月由Richard R. Carhart发表的一篇工程性的文章中,收录在Rand公司的研究备忘录中. “software engineering”即“软件工程”这一名词的使用最早是在阿波罗11登月计划由著名的女程序员Margaret

第一章 概论 计算机网络笔记 学堂在线 1.3交换方式(电路交换、分组交换)

交换就是要建立两种机制: 建立数据传输通路机制 控制数据传输过程机制 信道:是信号传输通道 1 发送端将数据转换成信号 2 信号经过信道传播到达接收端 3 接收端将信号还原成数据 1 电路交换 两两互联建立信道过程: 信道固定. 缺陷:如果终端之间存在双向信道,n个终端需要n*(n-1)个信道.按需建立信道过程: 信道不固定.终端之间的信道由3段物理链路组成. 电路交换过程(连接建立过程):由电路交换机按需在两个终端之间动态建立信道. 数据传输通路建立机制: 1 建立连接:两个终端之间进行数据传

大数据第二章hadoop概述

hadoop简介 hadoop是基于Java语言开发的,具有很好的跨平台性,并且可以部署在廉价的计算机群众,hadoop的核心是分布式文件系统HDFS(hadoop distributed file system)和mapreduce,HDFS具有较高的读写速度和和好的容错性和可伸缩性并且具有大规模的数据分布存储性以及较高的安全性. MAPRDUCE是一套计算速度很快的计算模型. hadoop的特性 高可靠性 .高效性.高扩展性.高容错性.成本低.支持多种语言.跨平台性. hadoop的生态系统