大数据学习之路------借助SANDBOX开始学习

一开始...

  一开始知道大数据这个概念的时候,只是感觉很高大上,引起了我的兴趣。当时也不知道,这个东西是做什么的,有什么用,当然现在看来也是很模糊的样子,但是的确比一开始强了不少。

  所以学习的过程可能会很艰辛甚至有时候会很缓慢,但是感觉这东西未来会很有用途,最初了解大数据是从《大数据时代》这本书开始的,里面的很多概念和预测让我觉得很神奇。

  但是渐渐生活中的一些事物被印证,我渐渐接受了这本书的内容,我觉得这本书还是值得一看的。

  在国内这个技术似乎是比较新颖的,做的人似乎不是很多,正因为如此,资料也会匮乏,学习难度也上升了,但是这不是我们放弃的理由不是么?

借助平台管理工具

  废话少说,多学些东西才是正经事,在公司实习过一段时间了,感觉初学的困难之一就是,搭建平台。

  所以我们可以了解一下一些比较流行的平台管理工具:

  HDP、CDH

  而我在公司使用的便是HDP,所以我就大概的说一下HDP好了

HDP

HDP是什么?

  HDP全称叫做Hortonworks Data Platform。

  Hortonworks数据平台是一款基于Apache Hadoop的是开源数据平台,提供大数据云存储,大数据处理和分析等服务。该平台是专门用来应对多来源和多格式的数据,并使其处理起来能变成简单、更有成本效益。HDP还提供了一个开放,稳定和高度可扩展的平台,使得更容易地集成Apache Hadoop的数据流业务与现有的数据架构。该平台包括各种的Apache Hadoop项目以及Hadoop分布式文件系统(HDFS)、MapReduce、Pig、Hive、HBase、Zookeeper和其他各种组件,使Hadoop的平台更易于管理,更加具有开放性以及可扩展性。

  官网地址为:http://zh.hortonworks.com/

HDP的架构

 

Hortonworks Sandbox的安装与使用:

  官网上解释:Hortonworks Sandbox,可以使用它尝试一下最新的hdp特性和功能。

  它可以装在一个VM上,如此来说,给我们学习大数据相关内容提供了极大的便利

  下载地址:http://zh.hortonworks.com/downloads/#sandbox

  安装的方法很简单,使用相应的虚拟机软件,直接导入就OK了。

 注意:我的笔记本电脑是12g内存的,而HDP2.5所需要的最小内存是8G,而如果你的内存不够,可以选择低版本的SANDBOX。

安装后,开启虚拟机就可以了

启动的过程可能会很久要耐心等待。

启动如下图所示:

打开浏览器,输入http://127.0.0.1:8888/即可。

进入后可以点开 view advanced options来查看更多的信息。

右下角有如下内容:

* Service disabled by default. To enable the service you need to log in as an ambari admin.

The ambari admin password can be set by following this tutorial

这里需要我们进行ssh登录后,添加admin账户的密码,并使用这个admin账户来登录虚拟机。

ssh工具登录使用地址127.0.0.1 端口为 2222

这里也可以使用浏览器进行登录:

在浏览器里输入127.0.0.1:4200,访问即可

用户名:root

密码:  hadoop

登录后需要修改密码,这里的密码设置复杂一些,简单密码有可能通不过(不过经过本人测试,当你以后再次登录后,可以运行passwd root,修改成任意你想要的密码)

然后运行ambari-admin-password-reset命令,修改ambari的admin账户密码。

修改后,我们在浏览器里输入172.0.0.1:8080,并用admin账户登录。

截张图,

关于ambari的介绍如下:

  

  Apache Ambari是一种基于Web的工具,支持Apache Hadoop集群的供应、管理和监控。Ambari目前已支持大多数Hadoop组件,包括HDFS、MapReduce、Hive、Pig、 Hbase、Zookeper、Sqoop和Hcatalog等。

  Apache Ambari 支持HDFS、MapReduce、Hive、Pig、Hbase、Zookeper、Sqoop和Hcatalog等的集中管理。也是5个顶级hadoop管理工具之一。

以后我们就用它来学习了!

时间: 2024-08-03 18:20:36

大数据学习之路------借助SANDBOX开始学习的相关文章

大数据分析学习之路

大数据分析学习之路 目录: 一.大数据分析的五个基本方面 二.如何选择适合的数据分析工具 三.如何区分三个大数据热门职业 四.从菜鸟成为数据科学家的 9步养成方案 五.从入门到精通--快速学会大数据分析                             一.大数据分析的五个基本方面 1,可视化分析 大数据分析的使用者有大数据分析专家,同时还有普通用户,但是他们二者对于大数据分析最基本的要求就是可视化分析,因为可视化分析能够直观的呈现大数据特点,同时能够非常容易被读者所接受,就如同看图说话一

大数据修炼之路

大数据修炼之路 大数据Spark是用Scala语言编写架构,因此,认真学习Scala是首选.Scala 是一种面向对象编程和函数式编程的多范式编程语言,和java有些不同又比java强大.下载了<Programming in Scala>,慢慢啃,虽然原汁原味,但是毕竟英文理解能力有限,有些非常专业的特性讲解还是一知半解,领悟不到要点,要参考中文版,这样啃一段又返回去看对应中文版加深理解,但是进度非常慢,甚是苦恼,有幸在51CTO上看到了王家林全免费的<Scala深入浅出实战初级入门经典

大数据下基于Tensorflow框架的深度学习示例教程

近几年,信息时代的快速发展产生了海量数据,诞生了无数前沿的大数据技术与应用.在当今大数据时代的产业界,商业决策日益基于数据的分析作出.当数据膨胀到一定规模时,基于机器学习对海量复杂数据的分析更能产生较好的价值,而深度学习在大数据场景下更能揭示数据内部的逻辑关系.本文就以大数据作为场景,通过自底向上的教程详述在大数据架构体系中如何应用深度学习这一技术.大数据架构中采用的是hadoop系统以及Kerberos安全认证,深度学习采用的是分布式的Tensorflow架构,hadoop解决了大数据的存储问

我的大数据实践之路-洗脑篇

1. 什么是大数据 五个简单故事告诉你什么是"大数据" 2.如何看待大数据 要全体不要抽样,要效率不要绝对精确,要相关不要因果 3.大数据能干什么 通过用户的使用习惯来预判用户的行为 4.大数据应用场景 我的大数据实践之路-洗脑篇

大数据、人工智能、机器学习、深度学习,这些到底在说什么?

1,大数据.人工智能.机器学习.深度学习的关系. 大数据,或者说大数据分析平台,更具体一点就是大数据分析PaaS平台,其实是一种针对需要处理海量数据统计分析的PaaS云平台. 大数据学习可以加群:199427210 如果你正在学习大数据 ,小编欢迎你加入,大家都是软件开发党,不定期分享干货(只有大数据软件开发相关的),包括我自己整理的一份2018最新的大数据进阶资料和高级开发教程,欢迎进阶中和进想深入大数据的小伙伴加入. 人工智能,是要让机器能够像人类一样具有感知.观察的能力,并且可以做到理解和

Python学习之路——强力推荐的Python学习资料

资料一:程序媛想事儿(Alexia)总结 Python是一种面向对象.直译式计算机程序设计语言.它的语法简捷和清晰,尽量使用无异义的英语单词,与其它大多数程序设计语言使用大括号不一样,它使用縮进来定义语句块.与Scheme.Ruby.Perl.Tcl等动态语言一样,Python具备垃圾回收功能,能够自动管理内存使用.它经常被当作脚本语言用于处理系统管理任务和网络程序编写,然而它也非常适合完成各种高级任务. Python上手虽然容易,但与其它任何语言一样要学好Python并非一日之功.我的Pyth

Java/Python转大数据,你必须了解的深度学习

深度学习这是当今的热门话题,坚定地投入到人工智能,大数据和分析等领域的广泛行业.目前,Google正在使用语音和图像识别算法深度学习,而Netflix和Amazon正在使用它来了解客户的行为.事实上,你不会相信,但是麻省理工学院的研究人员正在试图用深度学习来预测未来.现在,想象一下,革命化的世界和我们的工作方式,潜在的深入学习有多少.在谈论深度学习突破之前,人们必须了解它与机器学习和人工智能的关系.了解这种关系的最简单的方法是通过下面的图表: 什么 是深度学习 - AI技术时间表 在这里,您可以

从菜鸟走向大数据高手之路

Spark大数据框架是用scala语言编写,和java有些不同又比java强大.灵活,库的封装实现了很多算法函数,scala中的的接口用trait来定义,不同于java的接口,trait中可以有抽象方法也可以有不抽象方法.scala中的方法中还可以定义方法,这在java中是从来没有的.传统的MR需要编写很多JAVA代码实现的算法逻辑,在Spark编写时小菜一碟,几行就实现了这些逻辑,而且让开发人员更多的关注业务方向. 大数据未来几年发展的重点方向,大数据战略已经在十八届五中全会上作为重点战略方向

我是学Java的,想尝试大数据和数据挖掘,该怎么规划学习?

著作权归作者所有.商业转载请联系作者获得授权,非商业转载请注明出处.作者:谭欣链接:http://www.zhihu.com/question/21380122/answer/22156159来源:知乎 大数据有两个方向,一个是偏计算机的,另一个是偏经济的.你学过Java,所以你可以偏将计算机 基础1. 读书<Introduction to Data Mining>,这本书很浅显易懂,没有复杂高深的公式,很合适入门的人.另外可以用这本书做参考<Data Mining : Concepts