大数据云计算等搜集的资料

云计算和大数据

http://www.cstor.cn/textdetail_6067.html

http://wenku.baidu.com/link?url=kscWHrJRhI2PdBscQvBmTJTcNcUQpNIk8xFXlkNKWnnTtRLmYPPLBAV4Gp5CmP-H1bQcrCIoxkdSP3XnC3xkDoGWDFyy1R9gJkD9EuyF47q

大数据和云计算两者的区别

http://www.csdn.net/article/2015-09-11/2825674 盘点大数据生态圈，那些繁花似锦的开源项目

云存储技术

开源的分布式文件存诸系统有GlusterFS、Hadoop 、FastDFS 等等非常多

Tachyon http://www.csdn.net/article/2015-06-25/2825056

Ceph与Swift
Ceph用C++编写而Swift用Python编写，性能上应当是Ceph占优。但是与Ceph不同，Swift专注于对象存储，作为OpenStack组件之一经过大量生产实践的验证，与OpenStack结合很好，目前不少人使用Ceph为OpenStack提供块存储，但仍旧使用Swift提供对象存储。
Swift的开发者曾写过文章对比Ceph和Swift: Ceph and Swift: Why we are not fighting.
Ceph与HDFS
Ceph对比HDFS优势在于易扩展，无单点。HDFS是专门为Hadoop这样的云计算而生，在离线批量处理大数据上有先天的优势，而Ceph是一个通用的实时存储系统。虽然Hadoop可以利用Ceph作为存储后端（根据Ceph官方的教程死活整合不了，自己写了个简洁的步骤Running-Hadoop-on-CEPH），但执行计算任务上性能还是略逊于HDFS（时间上慢30%左右 Haceph: Scalable Meta- data Management for Hadoop using Ceph）。

http://www.chinaz.com/program/2015/0504/403143.shtml 历经十年：关于Ceph现状与未来的一些思考

http://www.oschina.net/project/tag/104/storage 不同类别的存储系统开源项目

Hadoop生态系统

http://blog.csdn.net/woshiwanxin102213/article/details/19688393

Hadoop是一个能够对大量数据进行分布式处理的软件框架。具有可靠、高效、可伸缩的特点。

Hadoop的核心是HDFS和Mapreduce，hadoop2.0还包括YARN。

下图为hadoop的生态系统：

Spark / Storm

http://www.zhihu.com/question/26568496

http://developer.51cto.com/art/201412/460116.htm

Spark基于这样的理念，当数据庞大时，把计算过程传递给数据要比把数据传递给计算过程要更富效率。每个节点存储（或缓存）它的数据集，然后任务被提交给节点。所以这是把过程传递给数据。这和Hadoop map/reduce非常相似，除了积极使用内存来避免I/O操作，以使得迭代算法（前一步计算输出是下一步计算的输入）性能更高。Shark只是一个基于Spark的查询引擎（支持ad-hoc临时性的分析查询）

而Storm的架构和Spark截然相反。Storm是一个分布式流计算引擎。每个节点实现一个基本的计算过程，而数据项在互相连接的网络节点中流进流出。和Spark相反，这个是把数据传递给过程。

两个框架都用于处理大量数据的并行计算。

Storm在动态处理大量生成的“小数据块”上要更好（比如在Twitter数据流上实时计算一些汇聚功能或分析）。

Spark工作于现有的数据全集（如Hadoop数据）已经被导入Spark集群，Spark基于in-memory管理可以进行快讯扫描，并最小化迭代算法的全局I/O操作。

http://blog.csdn.net/hguisu/article/details/8454368 使用Storm实现实时大数据分析