【慕课网实战】Spark Streaming实时流处理项目实战笔记七之铭文升级版

铭文一级：

第五章：实战环境搭建

Spark源码编译命令:
./dev/make-distribution.sh \
--name 2.6.0-cdh5.7.0 \
--tgz \
-Pyarn -Phadoop-2.6 \
-Phive -Phive-thriftserver \
-Dhadoop.version=2.6.0-cdh5.7.0

铭文二级：

第五章：实战环境搭建(所有都配置到环境变量)

1、Scala的安装：Download->previous releases 　　//课程使用2.11.8

2、Maven的安装：Download->archives->binaries //课程使用3.3.9

修改settings.xml的默认仓库地址

3、下载hadoop的安装包（CDH5的地址里有）

生成ssh公钥指令：ssh-keygen -t rsa

拷贝公钥：cp ~/.ssh/id_rsa.pub ~/.ssh/authorized_keys

解压hadoop安装包：

env/hadoop目录下6个配置文件需要修改(*#* //对应name与value配对)：

hadoop.env.sh　　//修改java_home地址

core-site.xml　　 /* fs.defaultFS#hdfs://hadoop000:8020 hadoop.tmp.dir#/home/hadoop/app/tmp */

hdfs-site.xml　　 //副本系数自行设置: dfs.replication#1

slaves　　　　　 //修改主机localhost为hadoop000

修改完这四个文件可以格式化hadoop：

进入hadoop目录的bin目录，执行：./hadoop namenade -format

配置到环境变量

到sbin目录下：./start-dfs.sh //hadoop000:50070

mapred-site.xml　　//cp一份模板出来运行在yarn上：mapreduce.framework.name#yarn

yarn-site.xml　　//整合mapreduce：yarn.nodemanager.aux-services#mapredue-shuffle

到sbin目录下：./start-yarn.sh //hadoop000:8088

hadoop fs -ls /

hadoop fs -mkdir /data

hadoop fs -put $FILE /data/

hadoop fs -test $FILE　　　　　　//查看详细内容

Spark环境搭建，具体操作看笔记一的铭文二、铭文四或者：https://www.imooc.com/article/18419

原文地址：https://www.cnblogs.com/kkxwz/p/8366348.html

时间： 2025-01-14 07:01:28

【慕课网实战】Spark Streaming实时流处理项目实战笔记七之铭文升级版的相关文章

【慕课网实战】Spark Streaming实时流处理项目实战笔记十之铭文升级版

铭文一级: 第八章:Spark Streaming进阶与案例实战 updateStateByKey算子需求:统计到目前为止累积出现的单词的个数(需要保持住以前的状态) java.lang.IllegalArgumentException: requirement failed: The checkpoint directory has not been set. Please set it by StreamingContext.checkpoint(). 需求:将统计结果写入到MySQLcre

【慕课网实战】Spark Streaming实时流处理项目实战笔记八之铭文升级版

铭文一级: Spark Streaming is an extension of the core Spark API that enables scalable, high-throughput, fault-tolerant stream processing of live data streams. Spark Streaming个人的定义: 将不同的数据源的数据经过Spark Streaming处理之后将结果输出到外部文件系统特点低延时能从错误中高效的恢复:fault-toler

【慕课网实战】Spark Streaming实时流处理项目实战笔记十五之铭文升级版

铭文一级:[木有笔记] 铭文二级: 第12章 Spark Streaming项目实战行为日志分析: 1.访问量的统计 2.网站黏性 3.推荐 Python实时产生数据访问URL->IP信息->referer和状态码->日志访问时间->写入到文件中本地与虚拟机都要装了python才能运行重要代码: #coding=UTF-8 #数组最后一个没有"," url_paths = [ "class/128.html", "class

【慕课网实战】Spark Streaming实时流处理项目实战笔记二十之铭文升级版

铭文一级: Spring Boot整合Echarts动态获取HBase的数据1) 动态的传递进去当天的时间 a) 在代码中写死 b) 让你查询昨天的.前天的咋办? 在页面中放一个时间插件(jQuery插件),默认只取当天的数据2) 自动刷新展示图每隔多久发送一个请求去刷新当前的数据供展示统计慕课网当天实战课程从搜索引擎过来的点击量数据已经在HBase中有的自己通过Echarts整合Spring Boot方式自己来实现铭文二级: 在Spring Boot项目pom.xml下引入<repo

【慕课网实战】Spark Streaming实时流处理项目实战笔记十六之铭文升级版

铭文一级: linux crontab 网站:http://tool.lu/crontab 每一分钟执行一次的crontab表达式: */1 * * * * crontab -e */1 * * * * /home/hadoop/data/project/log_generator.sh 对接python日志产生器输出的日志到Flumestreaming_project.conf 选型:access.log ==> 控制台输出 exec memory logger exec-memory-log

【慕课网实战】Spark Streaming实时流处理项目实战笔记十八之铭文升级版

铭文一级: 功能二:功能一+从搜索引擎引流过来的 HBase表设计create 'imooc_course_search_clickcount','info'rowkey设计:也是根据我们的业务需求来的 20171111 +search+ 1 项目打包:mvn clean package -DskipTests 报错:[ERROR] /Users/rocky/source/work/sparktrain/src/main/scala/com/imooc/spark/project/dao/Cou

Spark Streaming实时流处理项目实战

第1章课程介绍 1-1 -导学- 1-2 -授课习惯和学习建议 1-3 -OOTB环境使用演示 1-4 -Linux环境及软件版本介绍 1-5 -Spark版本升级第2章初识实时流处理 2-1 -课程目录 2-2 -业务现状分析 2-3 -实时流处理产生背景 2-4 -实时流处理概述 2-5 -离线计算和实时计算对比 2-6 -实时流处理框架对比 2-7 -实时流处理架构及技术选型 2-8 -实时流处理在企业中的应用第3章分布式日志收集框

【慕课网实战】Spark Streaming实时流处理项目实战笔记三之铭文升级版

铭文一级: Flume概述Flume is a distributed, reliable, and available service for efficiently collecting(收集), aggregating(聚合), and moving(移动) large amounts of log data webserver(源端) ===> flume ===> hdfs(目的地) 设计目标: 可靠性扩展性管理性业界同类产品的对比 (***)Flume: Cloudera/A

【慕课网实战】Spark Streaming实时流处理项目实战笔记十九之铭文升级版

铭文一级:(没有内容) 铭文二级: 创建Spring boot项目: 看官网,Quick Start下面有两个依赖,必须得使用但是如果用IDEA构建Spring boot,则会自动添加 New Project->Spring Initializr->Next 任意确定: com.imooc.spark web 选版本.点击左边的web->勾上web project name:imooc_web Reference里修改成本地的maven版本删除多余的文件:mvn.mvnw.mvnw.