大数据?这些你了解吗?(新手)

一、学习大数据需要的基础

java SE,EE(SSM)
        90%的大数据框架都是java写的
    MySQL
        SQL on Hadoop
    Linux
        大数据的框架安装在Linux操作系统上

二、需要学什么

第一方面:大数据离线分析

一般处理T+1数据
            Hadoop 2.X:(common、HDFS、MapReduce、YARN)
                环境搭建,处理数据的思想
            Hive:
                大数据数据仓库
                通过写SQL对数据进行操作,类似于mysql数据库中的sql
            HBase
                基于HDFS的NOSQL数据库
                面向列的存储
                
            协作框架:
                sqoop(桥梁:HDFS 《==》RDBMS)
                flume:收集日志文件中信息
                
                调度框架anzkaban,了解:crotab(Linux自带)、zeus(Alibaba)、Oozie(cloudera)
            
            扩展前沿框架:
                kylin、impala、ElasticSearch(ES)

注意:关于第一方面的内容我的另一篇博客有详细的总结(是我搜索大量网上资料所得,可以帮你省下不少时间)

第二方面:大数据实时分析

以spark框架为主
            Scala:OOP + FP
            sparkCore:类比MapReduce
            sparkSQL:类比hive
            sparkStreaming:实时数据处理
            kafka:消息队列
        前沿框架扩展:flink  
            阿里巴巴 blink

第三方面:大数据机器学习(扩展)

spark MLlib:机器学习库
            pyspark编程:Python和spark的结合
            推荐系统
            python数据分析

Python机器学习

大数据框架安装功能来划分

海量数据存储:

HDFS、Hive(本质存储数据还是hdfs)、HBASE、ES

海量数据分析:

MapReduce、Spark、SQL

最原始的Hadoop框架

数据存储:HDFS(Hadoop Distributed File System)
    数据分析:MapReduce

Hadoop的起源

Google的三篇论文

虽然Google没有公布这三个产品的源码,
    但是他发布了这三个产品的详细设计论文,
    奠定了风靡全球的大数据算法的基础!

Google FS        HDFS
MapReduce        MapReduce
BigTable        HBase

将任务分解然后在多台处理能力较弱的计算节点中同时处理,然后将结果合并从而完成大数据处理。
    
    google:android,搜索,大数据框架,人工智能框架
    pagerank

Hadoop介绍

大数据绝大多数框架,都属于Apache顶级项目
    http://apache.org/
    hadoop官网:
    http://hadoop.apache.org/
    
分布式
    相对于【集中式】
    需要多台机器,进行协助完成。
    
    元数据:记录数据的数据
    架构:
        主节点Master    老大,管理者
            管理
        从节点Slave    从属,奴隶,被管理者
            干活

Hadoop也是分布式架构

common

HDFS:

主节点:NameNode
            决定着数据存储到那个DataNode上
        从节点:DataNode
            存储数据

MapReduce:

分而治之思想
        将海量的数据划分为多个部分,每部分数据进行单独的处理,最后将所有结果进行合并
        map task
            单独处理每一部分的数据、
            
        reduce task
            合并map task的输出

YARN:

分布式集群资源管理框架,管理者集群的资源(Memory,cpu core)
        合理调度分配给各个程序(MapReduce)使用
        主节点:resourceManager
            掌管集群中的资源
        从节点:nodeManager
            管理每台集群资源

总结:Hadoop的安装部署

都属于java进程,就是启动了JVM进程,运行服务。
        HDFS:存储数据,提供分析的数据
            NameNode/DataNode
        YARN:提供程序运行的资源

ResourceManager/NodeManager

原文地址:http://blog.51cto.com/13797478/2130873

时间: 2024-10-08 05:05:30

大数据?这些你了解吗?(新手)的相关文章

云计算需要学什么课程?新手小白如何学习云计算大数据

如今,大数据的发展趋势正在迅速转变,但专家预计机器学习.预测分析.物联网.边缘计算将在未来几年对大数据项目产生重大影响.新手小白如何学习云计算大数据呢? 如今大数据已不再只是一个流行术语.调研机构Forrester公司的研究人员发现,在2016年,将近40%的企业正在实施和扩展大数据技术的应用,另外30%的企业计划在未来一年内采用大数据.同样,来自NewVantage Partners的"2016年大数据执行调查"发现,62.5%的企业现在至少有一个大数据项目投入使用,只有5.4%的企

新手如何学习云计算大数据,云计算的学习路线

如今云计算火的一塌糊涂,不管你是男生还是女生就业前景摆在那里,只要你有技术有能力,前景不可限量,所以,不要担心就业前景的问题,要担心就担心你自己的能力问题.只有你真正的掌握了技术,才能有更好的就业发展. 云计算是基于互联网的相关服务的增加.使用和交付模式,通常涉及通过互联网来提供动态易扩展且经常是虚拟化的资源.甚至可以让你体验每秒10万亿次的运算能力,拥有这么强大的计算能力可以模拟核爆炸.预测气候变化和市场发展趋势.用户通过电脑.笔记本.手机等方式接入数据中心,按自己的需求进行运算. 如今,大数

大数据新手的0基础学习路线,从菜鸟到高手的成长之路

大数据作为一个新兴的热门行业,吸引了很多人,但是对于大数据新手来说,按照什么路线去学习,才能够学习好大数据,实现从大数据菜鸟到高手的转变.这是很多想要学习大数据的朋友们想要了解的. 今天我们就来和大家分享下大数据新手从0开始学习大数据,实现菜鸟到高手的转变的学习路线.希望能够帮助想要学习大数据的朋友. 如果你想要学好大数据最好加入一个好的学习环境,可以来这个Q群529867072 这样大家学习的话就比较方便,还能够共同交流和分享资料 以下是大数据新手学习路线的正文: Linux:因为大数据相关软

零基础大数据新手学习路线教程

大数据-数据挖掘,越来越火,90%的企业都在运用或者都想要利用大数据为其带来更便利的服务,从而大数据高端软件类人才可谓供不应求. 如何学好大数据? 第一阶段:大数据新手入门系统教程Java+MySQL+关系型数据库+阿里巴巴<码出高效>编码规约 知识点 一.Java基础入门:Java编程入门:Java编程初体验,Java运行机制; Java语法基础:Java程序的组织形式与命名规则,变量类型和定义,表达式和运算符; 程序的流程结构:分支结构,循环结构;函授:函数的定义,函数调用,函数递归定义和

新手入门大数据,这有一条最完整的学习路径

本文的目的是希望给所有大数据初学者规划一条比较清晰的学习路线,帮助它们开启大数据学习之旅.鉴于大数据领域内的技术绚丽繁复,每位大数据初学者都应该根据自己的实际情况制定专属的学习路径. 要说当下IT行业什么最火?ABC无出其右.所谓ABC者,AI + Big Data + Cloud也,即人工智能.大数据和云计算(云平台).每个领域目前都有行业领袖在引领前行,今天我们来讨论下大数据这个方向. 新手入门大数据,这有一条最完整的学习路径大数据概念 角色 以我的愚见,当下大数据行业有两类角色: 大数据工

大数据学习入门看什么书?大数据新手怎么入门?

大数据,big data,大数据是指不能用随机分析法(抽样调查)这样捷径,而采用所有数据进行分析处理.这句话至少传递两种信息:大数据是海量的数据,另外大数据处理无捷径,对分析处理技术提出了更高的要求. 其实简单的来说,大数据就是通过分析和挖掘全量的非抽样的数据辅助决策.大数据可以实现的应用可以概括为两个方向,一个是精准化定制,第二个是预测.比如像通过搜索引擎搜索同样的内容,每个人的结果却是大不相同的.再比如精准营销.百度的推广.淘宝的喜欢推荐,或者你到了一个地方,自动给你推荐周边的消费设施等等.

为什么这么多人学习大数据?新手该如何上手大数据?

目前大数据和人工智能作为两大热门方向,不仅仅国家在政策上进行支持,同时国内以百度,阿里为首的知名互联网企业也正在积极的布局大数据和人工智能. 自 2015 年以来,中国的人工智能政策密集出台,这也意味着,在全球竞争的背景下,人工智能已经上升为国家意志. 而且最近首部高中AI教材发布,标志着AI已经正式进入了高中课堂中,从这边我们可以看到人工智能的前景. 而和人工智能作为一大热门方向的大数据,目前也是前景广阔. 在2017年国家同样也陆续发布了多个大数据相关的政策,同时目前在贵州,内蒙,西安等多个

新手入门大数据,理清学习路线是关键

学习大数据,首先我们要学习Java语言和Linux操作系统,这两个是学习大数据的基础,学习的顺序不分前后.Java:大家都知道Java的方向有JavaSE.JavaEE.JavaME,学习大数据要学习那个方向呢?只需要学习Java的标准版JavaSE就可以了,像Servlet.JSP.Tomcat.Struts.Spring.Hibernate,Mybatis都是JavaEE方向的技术在大数据技术里用到的并不多,只需要了解就可以了,当然Java怎么连接数据库还是要知道的,像JDBC一定要掌握一下

新手必备:大数据框架Hadoop主要模块解析

hadoop Common: 包括Hadoop常用的工具类,由原来的Hadoop core部分更名而来.主要包括系统配置工具Configuration.远程过程调用RPC.序列化机制和Hadoop抽象文件系统FileSystem等.它们为在通用硬件上搭建云计算环境提供基本的服务,并为运行在该平台上的软件开发提供了所需的API. Hadoop Distributed File System (HDFS?): 分布式文件系统,提供对应用程序数据的高吞吐量,高伸缩性,高容错性的访问.是Hadoop体系