Hadoop for .NET Developers

Hadoop for .NET Developers(一):理解Hadoop

这些年来,大数据已经成为分析业界的兴奋源头。对于这个博客系列的目的,我将松散定义这个术语指的重点是从数据核心业务系统里数据来源的扩张 - 传统商业智能的范畴 - 包括新的(无论是在历史上被忽视或新的可用)数据源。

这是一届大数据的一个粗略的简化,但它固有的与已推动通过新的数据平台,这些新的数据工作的挑战。当我们的注意力是在Hadoop的,最广泛的认可,这些新的数据平台,大数据的这样一个有限的定义似乎就够了。

Hadoop是一个弹性的,分布式的,无模式的数据处理平台,是理想的,你有大量的数据集,单记录含有少量值,如日志文件,因为它提供了一个低的投入来进行数据访问的解决方案。这也是对需要复杂分析和解释复杂数据一个良好的平台,例如XML或JSON文档,图像文件等,和/或可能受到可变的解释,例如客户推文(在JSON文件)。

此外,当你需要大规模的可扩展性超出了可以实现与传统的关系型数据库平台,Hadoop是一个绝佳平台。话虽如此,我没有找到这最后的方案是适用于我的许多客户(虽然它是适用于一些)。对于我工作以及绝大多数的人,Hadoop的灵活性和经济性往往是来探索这个平台最有说服力的理由。


Hadoop for .NET Developers(二):基础架构

Hadoop是一组相互关联的项目组件的实现。核心组件是MapReduce的,用于处理作业的执行,和一个储存层,通常被实现作为Hadoop分布式文件系统(HDFS)。对于这篇文章的目的,我们将假定HDFS正在使用中。

Hadoop的组件是通过一系列被称为数据(或计算)节点的服务器来实现。这些节点是数据被存储和处理的地方。

的名称的节点服务器保留在环境中的数据节点,其数据被存储哪个节点上的轨道,并提供了数据的节点为一个单一实体。这种奇异表示被称为一个簇。如果你所熟悉的RDBMS实现术语集群,请注意,不一定任何共享存储或节点之间的其他资源。 Hadoop集群是纯粹的逻辑。

版权声明:本文为博主原创文章,未经博主允许不得转载。

时间: 2024-08-26 08:45:29

Hadoop for .NET Developers的相关文章

Hadoop 裡的 fsck 指令

Hadoop 裡的 fsck 指令,可檢查 HDFS 裡的檔案 (file),是否有 corrupt (毀損) 或資料遺失,並產生 HDFS 檔案系統的整體健康報告.報告內容,包括:Total blocks (區塊的總個數).Average block replication (平均副本個數).Corrupt blocks.遺失的區塊個數....等等.-------------------------指令如下: hadoop fsck / hadoop fsck --help hadoop fs

实验二-1 win7下给eclipse安装hadoop插件

使用的教程为: 1. windows7+eclipse+hadoop2.5.2环境配置 http://www.cnblogs.com/huligong1234/p/4137133.html 2. Hadoop 在Windows7操作系统下使用Eclipse来搭建Hadoop开发环境 http://www.linuxidc.com/Linux/2014-12/111061.htm 3. eclipse_win7_hadoop1.2.1开发环境搭建1 http://blog.csdn.net/maj

Hadoop的shell脚本分析

你会发现hadoop-daemon.sh用于启动单独的本机节点 而hadoop-daemons.sh 会批量的ssh到别的机器启动 前记: 这些天一直学习hadoop,学习中也遇到了许多的问题,主要是对hadoop的shell脚本和hadoop的源码概念不够清楚,所以我就对hadoop的bin目录下的shell脚本进行了研究,有一些成果想记录下来,也希望大家前来批评指正. 分析原因: 很多hadoop的初学者对hadoop的脚本不是很清楚,不知道为什么可以在命令行中启动hadoop,也不知道为什

hadoop yarn 易理解

Hadoop 和 MRv1 简单介绍 Hadoop 集群可从单一节点(其中所有 Hadoop 实体都在同一个节点上运行)扩展到数千个节点(其中的功能分散在各个节点之间,以增加并行处理活动).图 1 演示了一个 Hadoop 集群的高级组件. 图 1. Hadoop 集群架构的简单演示 一个 Hadoop 集群可分解为两个抽象实体:MapReduce 引擎和分布式文件系统.MapReduce 引擎能够在整个集群上执行 Map 和 Reduce 任务并报告结果,其中分布式文件系统提供了一种存储模式,

64位centos 下编译 hadoop 2.6.0 源码

64位os下为啥要编译hadoop就不解释了,百度一下就能知道原因,下面是步骤: 前提:编译源码所在的机器,必须能上网,否则建议不要尝试了 一. 下载必要的组件 a) 下载hadoop源码 (当前最新的稳定版是2.6.0)地址  http://mirrors.hust.edu.cn/apache/hadoop/common/stable/hadoop-2.6.0-src.tar.gz b) 下载apache-ant (centos自带的ant版本太低,编译过程中会报错)地址: http://mi

spark 笔记 4:Apache Hadoop YARN: Yet Another Resource Negotiator

spark支持YARN做资源调度器,所以YARN的原理还是应该知道的:http://www.socc2013.org/home/program/a5-vavilapalli.pdf    但总体来说,这是一篇写得一般的论文,它的原理没有什么特别突出的,而且它列举的数据没有对比性,几乎看不出YARN有什么优势.反正我看完的感觉是,YARN的资源分配在延迟上估计很糟糕.而实际使用似乎也印证了这个预感. Abstract  two key shortcomings: 1) tight coupling

远程调试hadoop各组件

远程调试对应用程序开发十分有用.例如,为不能托管开发平台的低端机器开发程序,或在专用的机器上(比如服务不能中断的 Web 服务器)调试程序.其他情况包括:运行在内存小或 CUP 性能低的设备上的 Java 应用程序(比如移动设备),或者开发人员想要将应用程序和开发环境分开,等等. 为了进行远程调试,必须使用 Java Virtual Machine (JVM) V5.0 或更新版本. JPDA 简介 Sun Microsystem 的 Java Platform Debugger Archite

Awesome Hadoop

A curated list of amazingly awesome Hadoop and Hadoop ecosystem resources. Inspired by Awesome PHP, Awesome Pythonand Awesome Sysadmin Awesome Hadoop Hadoop YARN NoSQL SQL on Hadoop Data Management Workflow, Lifecycle and Governance Data Ingestion an

# Apache Hadoop Yarn: Yet Another Resource Negotiator论文解读

纯属云平台管理学习菜鸟的笔记,参照许多大牛的博客,如有侵权,请联系,立刻删除. Abstract 1) tight coupling of a specific programming model with the re- source management infrastructure, forcing developers to abuse the MapReduce programming model, and 2) centralized handling of jobs' contro