关于大数据领域各个组件打包部署到集群运行的总结（含手动和maven）（博主推荐）

对于这里的打包，总结：

　　(1) 最简单的，也是为了适应公司里，还是要用maven，当然spark那边sbt，maven都可以。但是maven居多。

Eclipse/MyEclipse下如何Maven管理多个Mapreduce程序？（企业级水平）

IDEA里如何多种方式打jar包，然后上传到集群

Spark编程环境搭建（基于Intellij IDEA的Ultimate版本）（包含Java和Scala版的WordCount）（博主强烈推荐)

　　(2) 将整个项目打jar包进去，只需指定想要的类即可。比如你直接打成一个总的jar包，如guangdiang.jar。

[[email protected] jar]$ hadoop jar ./guangdian.jar zhouls.bigdata.enterpriseMyHadoop.tv.AnalyzeCountChannelRating /tv-out-ECN/part-r-00000 /tv-out-ECAARN/part-r-00000 /tv-out-ACCR

[[email protected] jar]$ hadoop jar ./guangdian.jar zhouls.bigdata.enterpriseMyHadoop.tv.AnalyzeCountProgramRating /tv-out-ECN/part-r-00000 /tv-out-EPAARN/part-r-00000 /tv-out-ACPR

　　(3) 直接将你想要的类打成jar包即可，比如guangdiangACCR.jar。

[[email protected] jar]$ hadoop jar ./guangdianACCR.jar zhouls.bigdata.enterpriseMyHadoop.tv.AnalyzeCountChannelRating /tv-out-ECN/part-r-00000 /tv-out-ECAARN/part-r-00000 /tv-out-ACCR

或

[[email protected] jar]$ hadoop jar ./guangdianACCR.jar zhouls.bigdata.enterpriseMyHadoop.tv.AnalyzeCountChannelRating /tv-out-ECN/part-r-00000 /tv-out-ECAARN/part-r-00000 /tv-out-ACCR

　　比如guangdiangACPR.jar。

[[email protected] jar]$ hadoop jar ./guangdianACPR.jar zhouls.bigdata.enterpriseMyHadoop.tv.AnalyzeCountProgramRating /tv-out-ECN/part-r-00000 /tv-out-EPAARN/part-r-00000 /tv-out-ACPR

或

[[email protected] jar]$ hadoop jar ./guangdianACPR.jar zhouls.bigdata.enterpriseMyHadoop.tv.AnalyzeCountProgramRating hdfs://master:9000/tv-out-ECN/part-r-00000 hdfs://master:9000/tv-out-EPAARN/part-r-00000 hdfs://master:9000/tv-out-ACPR

　　成功！

原文地址：https://www.cnblogs.com/wangsongbai/p/9116116.html

时间： 2024-10-19 05:06:54

关于大数据领域各个组件打包部署到集群运行的总结（含手动和maven）（博主推荐）的相关文章

大数据学习之MapReduce基础与Yarn集群安装09

1大数据解决的问题? 海量数据的存储:hadoop->分布式文件系统HDFS 海量数据的计算:hadoop->分布式计算框架MapReduce 2什么是MapReduce? 分布式程序的编程框架,java->ssh ssm ,目的:简化开发! 是基于hadoop的数据分析应用的核心框架. mapreduce的功能:将用户编写的业务逻辑代码和自带默认组件整合成一个完整的分布式运算程序,并发的运行在hadoop集群上. 3 MapReduce的优缺点优点: (1)易于编程 (2)良好的拓

流式大数据计算实践（2）----Hadoop集群和Zookeeper

一.前言 1.上一文搭建好了Hadoop单机模式,这一文继续搭建Hadoop集群二.搭建Hadoop集群 1.根据上文的流程得到两台单机模式的机器,并保证两台单机模式正常启动,记得第二台机器core-site.xml内的fs.defaultFS参数值要改成本机的来启动,启动完毕后再改回来 2.清空数据,首先把运行单机模式后生成的数据全部清理掉 rm -rf /work/hadoop/nn/current rm -rf /work/hadoop/dn/current hdfs namenode

Laxcus大数据管理系统2.0（12）- 第十章运行

第十章运行本章将介绍一些Laxcus集群基本运行.使用情况,结合图片和表格表示.地点是我们的大数据实验室,使用我们的实验集群.数据来自于我们的合作伙伴,软件平台混合了Windows和Fedora Linux两个操作系统,硬件因为一直以来的测试需要,显得参差不齐,从10年前的旧机器到今天最新的设备都有.这样的环境虽然不足以反映目前商业运营的集群现实状况,但是在反映Laxcus集群和集群基础硬件性能参数时,仍然具有一定的代表性.为了更好反映测试结果,我们将多用户多集群的Laxcus部署成单用户单

魅族大数据之流平台设计部署实践--转

原文地址:http://mp.weixin.qq.com/s/-RZB0gCj0gCRUq09EMx1fA 沈辉煌魅族数据架构师 2010年加入魅族,负责大数据.云服务相关设计与研发: 专注于分布式服务.分布式存储.海量数据下rdb与nosql融合等技术. 主要技术点:推荐算法.文本处理.ranking算法本篇文章内容来自第八期魅族开放日魅族数据架构师沈辉煌的现场分享,由IT大咖说提供现场速录,由msup整理编辑. 导读:魅族大数据的流平台系统拥有自设计的采集SDK,自设计支持多种数据

10个大数据领域的杰出公司

本文筛选了近几年在大数据领域具有独特建树的10家企业,涵盖云计算.数据可视化.数据分析应用.商业智能等不同范畴.在大数据领域虽然国外的优秀企业占众多数,但是国内也有不少企业在国数据应用市场创造了不可磨灭的贡献.所以,这10家企业中也列举了一些在某领域具有突出贡献的国内公司,给大家借鉴.(排名不分先后) 国外 IT项目--IBM IBM是世界三大IT巨头之一,很多公司在考虑到一些大型的IT项目是会想到IBM.SAP这类公司,其成熟的方案得到世界的广泛认同.在大数据领域,IBM是Hadoop项目的主

入门大数据领域需要哪些技能｜大数据工程师学习之路

入门大数据领域需要哪些技能?大数据学习之路. 大数据是当时时代下一门炙热的IT学科,行情十分火爆,不论是阿里巴巴.百度这样的大公司,还是中小企业都很重视,甚至是第一个纳入国家战略的技术,政府扶持力度大,支持甚多!面对这样的大环境下,大数据相关岗位薪水高,就业前景好.因此也吸引了一大批有志之士,想学习并从事大数据相关工作.那么,大数据应该如何学习呢? 互联网科技发展蓬勃兴起,人工智能时代来临,抓住下一个风口.为帮助那些往想互联网方向转行想学习,却因为时间不够,资源不足而放弃的人.我自己整理的一份

解密大数据领域岗位职业发展路径

我们迎来了一个新的时代,这就是大数据的时代. —经济学家詹姆斯·莫里斯行业背景国家信息中心<2017中国大数据产业发展报告>对我国大数据产业发展的人才.政策.投融资.创新创业.产业发展.区域潜力.机构和人物影响力等多个维度进行了全面分析.结果显示,我国大数据发展总体处于起步阶段.但大数据领域资本热度依然坚挺,并逆势上扬,大数据企业融资总额及单个项目平均融资金额呈加速上升态势,大数据领域成为资本蓝海. 人才供需不均衡缺人,这是全国乃至全球大数据圈都挺蛋疼的一件事儿.2016年的人才关注度

大数据搭建各个子项目时配置文件技巧（适合CentOS和Ubuntu系统）（博主推荐）

不多说,直接上干货! 很多同行,也许都知道,对于我们大数据搭建而言,目前主流,分为Apache 和 Cloudera 和 Ambari. 后两者我不多说,是公司必备和大多数高校科研环境所必须的! 分别,详情见我如下的博客 Cloudera安装搭建部署大数据集群(图文分五大步详解)(博主强烈推荐) Ambari安装搭建部署大数据集群(图文分五大步详解)(博主强烈推荐) 我这里,对于初学者而言.一般是用Apahce和CDH这两个版本的hadoop.spark来练手和入门 . Xmanager Ent

MariaDB Galera Cluster 部署（如何快速部署MariaDB集群）

MariaDB作为Mysql的一个分支,在开源项目中已经广泛使用,例如大热的openstack,所以,为了保证服务的高可用性,同时提高系统的负载能力,集群部署是必不可少的. MariaDB Galera Cluster 介绍 MariaDB集群是MariaDB同步多主机集群.它仅支持XtraDB/ InnoDB存储引擎(虽然有对MyISAM实验支持 - 看wsrep_replicate_myisam系统变量). 主要功能: 同步复制真正的multi-master,即所有节点可以同时读写数据库