大数据 云计算 等搜集的资料

云计算和大数据

http://www.cstor.cn/textdetail_6067.html

http://wenku.baidu.com/link?url=kscWHrJRhI2PdBscQvBmTJTcNcUQpNIk8xFXlkNKWnnTtRLmYPPLBAV4Gp5CmP-H1bQcrCIoxkdSP3XnC3xkDoGWDFyy1R9gJkD9EuyF47q

大数据和云计算两者的区别

http://www.csdn.net/article/2015-09-11/2825674 盘点大数据生态圈,那些繁花似锦的开源项目

云存储技术

开源的分布式文件存诸系统有GlusterFS、Hadoop 、FastDFS 等等非常多

Tachyon http://www.csdn.net/article/2015-06-25/2825056

Ceph与Swift
Ceph用C++编写而Swift用Python编写,性能上应当是Ceph占优。但是与Ceph不同,Swift专注于对象存储,作为OpenStack组件之一经过大量生产实践的验证,与OpenStack结合很好,目前不少人使用Ceph为OpenStack提供块存储,但仍旧使用Swift提供对象存储。
Swift的开发者曾写过文章对比Ceph和Swift: Ceph and Swift: Why we are not fighting.
Ceph与HDFS
Ceph对比HDFS优势在于易扩展,无单点。HDFS是专门为Hadoop这样的云计算而生,在离线批量处理大数据上有先天的优势,而Ceph是一个通用的实时存储系统。虽然Hadoop可以利用Ceph作为存储后端(根据Ceph官方的教程死活整合不了,自己写了个简洁的步骤Running-Hadoop-on-CEPH),但执行计算任务上性能还是略逊于HDFS(时间上慢30%左右 Haceph: Scalable Meta- data Management for Hadoop using Ceph)。

http://www.chinaz.com/program/2015/0504/403143.shtml 历经十年:关于Ceph现状与未来的一些思考

http://www.oschina.net/project/tag/104/storage 不同类别的存储系统开源项目

Hadoop生态系统

http://blog.csdn.net/woshiwanxin102213/article/details/19688393

Hadoop是一个能够对大量数据进行分布式处理的软件框架。具有可靠、高效、可伸缩的特点。

Hadoop的核心是HDFS和Mapreduce,hadoop2.0还包括YARN。

下图为hadoop的生态系统:

Spark / Storm

http://www.zhihu.com/question/26568496

http://developer.51cto.com/art/201412/460116.htm

Spark基于这样的理念,当数据庞大时,把计算过程传递给数据要比把数据传递给计算过程要更富效率。每个节点存储(或缓存)它的数据集,然后任务被提交给节点。所以这是把过程传递给数据。这和Hadoop map/reduce非常相似,除了积极使用内存来避免I/O操作,以使得迭代算法(前一步计算输出是下一步计算的输入)性能更高。Shark只是一个基于Spark的查询引擎(支持ad-hoc临时性的分析查询)

而Storm的架构和Spark截然相反。Storm是一个分布式流计算引擎。每个节点实现一个基本的计算过程,而数据项在互相连接的网络节点中流进流出。和Spark相反,这个是把数据传递给过程。

两个框架都用于处理大量数据的并行计算。

Storm在动态处理大量生成的“小数据块”上要更好(比如在Twitter数据流上实时计算一些汇聚功能或分析)。

Spark工作于现有的数据全集(如Hadoop数据)已经被导入Spark集群,Spark基于in-memory管理可以进行快讯扫描,并最小化迭代算法的全局I/O操作。

http://blog.csdn.net/hguisu/article/details/8454368 使用Storm实现实时大数据分析

大数据的生态系统

http://www.csdn.net/article/2012-12-21/2813066-database-road-map 一张图让你知道大数据的生态系统

http://www.aboutyun.com/thread-11944-1-1.html 开源大数据(hadoop生态系统、流式处理系统等)处理工具汇总

开源云

http://www.oschina.net/news/54700/most-popular-opensource-cloud-projects 2014 上半年最受欢迎的开源云项目集合

http://www.chinacloud.cn/show.aspx?id=19743&cid=22 盘点Linux下的开源云平台

OpenStack Docker KVM

实时数据流处理

http://www.csdn.net/article/2014-06-12/2820196-Storm 实时计算,流数据处理系统简介与简单分析

http://www.csdn.net/article/2014-12-09/2823038 在云上搭建大规模实时数据流处理系统

http://tech.it168.com/a2014/0730/1651/000001651470_all.shtml LinkedIn大数据专家深度解读日志的意义

Appendix

http://storm.apache.org/

http://spark.apache.org/

http://hadoop.apache.org/

https://en.wikipedia.org/wiki/NoSQL

http://docs.openstack.org/developer/swift/

http://wiki.apache.org/hadoop/HDFS

http://ceph.com/

时间: 2024-11-07 17:47:38

大数据 云计算 等搜集的资料的相关文章

大数据云计算学习路线图(纯属个人看法和观点)

[ps:以下纯属个人观点和看法,有什么不对的,还请多多指教.] 1:之前发过一个Java攻城狮的学习路线图[ps:挺详细的~~~]:http://www.cnblogs.com/biehongli/p/5754555.html 恰恰是这个Java攻城狮学习路线图使我在学习编程的路上看到了希望,使迷茫的我找到了方向.现在还为此在努力...... 2:而今天呢,结合一些培训机构的学习路线图,今天发一个大数据云计算的学习路线图,也许有的人心中会有些疑问说这货是骗浏览量,点击量的吧,可是原因不是这样的哦

人工智能和嵌入式|大数据|云计算等的关系

人工智能和嵌入式|大数据|云计算等的关系 人工智能的大数据就来源于嵌入式设备,人工智能要落地,最后关键还是要看嵌入式设备.嵌入式技术将会因为人工智能跟物联网两个革命而再次焕发生机和活力. 云计算跟人工智能有什么关系?首先,什么是"云计算",关键就是本地的瘦客户端,本地是一个计算能力有限的瘦客户端,然后通过实时网络(譬如说4G,5G网络),连接云端服务器获取信息和资源.云计算的本质就是把大量的运算放到服务器端进行,本地通过网络快速的跟服务器进行信息的交换,有些对时间响应性相求不是很高的人

大数据云计算系统顶级架构培训视频教程

38套大数据,云计算,架构,数据分析师,Hadoop,Spark,Storm,Kafka,人工智能,机器学习,深度学习,项目实战视频教程 视频课程包含: 38套大数据和人工智能精品高级课包含:大数据,云计算,架构,数据挖掘实战,实时推荐系统实战,电视收视率项目实战,实时流统计项目实战,离线电商分析项目实战,Spark大型项目实战用户分析,智能客户系统项目实战,Linux基础,Hadoop,Spark,Storm,Docker,Mapreduce,Kafka,Flume,OpenStack,Hiv

大数据云计算openstack云平台基础到精通实践视频教程

38套大数据,云计算,架构,数据分析师,Hadoop,Spark,Storm,Kafka,人工智能,机器学习,深度学习,项目实战视频教程 视频课程包含: 38套大数据和人工智能精品高级课包含:大数据,云计算,架构,数据挖掘实战,实时推荐系统实战,电视收视率项目实战,实时流统计项目实战,离线电商分析项目实战,Spark大型项目实战用户分析,智能客户系统项目实战,Linux基础,Hadoop,Spark,Storm,Docker,Mapreduce,Kafka,Flume,OpenStack,Hiv

大数据商业实战演练教学视频资料下载

大数据商业实战演练教学视频资料,从部署到实战全部演练视频帮助你将大数据分析用于实战. 资料获取方式,关注公总号RaoRao1994,查看往期精彩-所有文章,即可获取资源下载链接 更多资源获取,请关注公总号RaoRao1994 原文地址:https://www.cnblogs.com/raorao1994/p/10861903.html

大数据云计算高级实战Hadoop,Flink,Spark,Kafka,Storm,Docker高级技术大数据和Hadoop技能

大数据和Hadoop技能可能意味着有你的梦想事业和被遗忘之间的差异.骰子引用:“技术专业人员应该志愿参与大数据项目,这使他们对目前的雇主更有价值,对其他雇主更有销路.” 1.与Hadoop的职业:根据福布斯2015年的一份报告,约有90%的全球性组织报告了中高级别的大数据分析投资,约三分之一的投资者称其投资“非常重要”.最重要的是,约三分之二的受访者表示,数据和分析计划对收入产生了重大的可衡量的影响. Hadoop技能是需求的 - 这是不可否认的事实!因此,IT专业人士迫切需要使用 Hadoop

大数据 云计算

大数据:数据量大,数据价值,分析,挖掘 云计算:一般分三层构成[IAAS,SAAS,PAAS] IAAS:基础设施既服务 SAAS:平台即服务 PAAS:软件既服务 Apache Hadoop 特点: 扩容能力(Scalable) 能可靠的(reliably)存储和处理千兆字节(PB)数据 成本低 可以通过普通机器组成的服务器群来发布和处理数据,这些服务器群总计可达数千个节点 高效率(efficient) 通过分发数据,Hadoop可以在数据所有的节点上并行的处理他们,使得处理速度非常快速. 可

大数据云计算学习内容

Linux大纲 1.Linux的介绍,Linux的安装:VMware Workstation虚拟软件安装过程.CentOS虚拟机安装过程 2.了解机架服务器,采用真实机架服务器部署linux 3.Linux的常用命令:常用命令的介绍.常用命令的使用和练习 4.Linux系统进程管理基本原理及相关管理工具如ps.pkill.top.htop等的使用: 5.Linux启动流程,运行级别详解,chkconfig详解 6.VI.VIM编辑器:VI.VIM编辑器的介绍.VI.VIM扥使用和常用快捷键 7.

大数据,云计算,数据挖掘实战,实时推荐系统实战,电视收视率项目实战,实时流统计项目实战视频教程

经过了近两个月的艰苦工作,这次在阿里天池的比赛终于结束了.第一次正经的去参加数据挖掘的比赛,从第一赛季开始到第二赛季结束,完整地经历了整个流程,每天提出新想法,学习新的方法,然后用编程的方法去实现,看着自己的MAPE一天天的下降,那种感觉也是很棒的.觉得付出了很多,也收获了很多,自己也找到了自己的方向,希望自己在未来可以朝着大数据和人工智能方向继续前行.而且这次比赛之后,自己在剩下三年的大学时光中还会继续参加很多这种比赛的,觉得这种比赛要比基础算法比赛更有趣,漫长的周期也更适合我比较散漫的生活方