Spark惰性机制引起的:Input path does not exist

分析:

val textFile = Sc.textFile(“file///usr/local/spark/...”)加载本地文件,必须以“file:///”开头

Spark的惰性机制:执行上面的命令不会马上显示结果

只有遇到行动类型的操作,才会从头到尾执行所有操作,如:textFile.first()//

从文件中加载数据到变量textFile中,并取出第一行文本。

结论:该目录的文件不存在。

避免此类问题:及时使用textFile.first()检验

原文地址:https://www.cnblogs.com/daisy99lijing/p/12293777.html

时间: 2024-11-06 16:52:19

Spark惰性机制引起的:Input path does not exist的相关文章

Hadoop问题:Input path does not exist: hdfs://Master:9000/user/hadoop/input

问题描述: org.apache.hadoop.mapreduce.lib.input.InvalidInputException: Input path does not exist: hdfs://Master:9000/user/hadoop/input at org.apache.hadoop.mapreduce.lib.input.FileInputFormat.singleThreadedListStatus(FileInputFormat.java:323) at org.apac

org.apache.hadoop.mapred.InvalidInputException: Input path does not exist: hdfs://localhost:9000/usr/local/spark/zytdemo

意思说在 hdfs://localhost:9000/usr/local/spark/zytdemo找不到响应的文件,我们可以分析的得到他并不是加载本地文件,而是区hdfs上查找. 这是由于我们在之前配置时修改过 /usr/local/hadoop/etc/hadoop下的core-site.xml 所以我们要将spark读取的文件路径改为hdfs上的路径. 原文地址:https://www.cnblogs.com/zyt-bg/p/11477449.html

org.apache.hadoop.mapreduce.lib.input.InvalidInputException: Input path does not exist: file:/input

原我是这样写的 //输入数据所在的文件目录 FileInputFormat.addInputPath(job, new Path("/input/")); //mapreduce执行后输出数据目录 FileOutputFormat.setOutputPath(job, new Path("/output/")); 这个错误原因是路劲错误,应加上hdfs中core-site.xml中配置路径,我的hdfs配置路径为hdfs://test1:9000 改为 //输入数据

Spark资源调度机制源码分析--基于spreadOutApps及非spreadOutApps两种资源调度算法

Spark资源调度机制源码分析--基于spreadOutApps及非spreadOutApps两种资源调度算法 1.spreadOutApp尽量平均分配到每个executor上: 2.非spreadOutApp尽量在使用单个executor的资源. 源码分析 org.apache.spark.deploy.master.Master 1.首先判断,master状态不是ALIVE的话,直接返回2.调度driver3. Application的调度机制(核心之核心,重中之重) 源码如下: 1 /*

spark 存储机制详解

我们知道spark可以将运行过的RDD存储到内存上, 并在需要的时候重复利用. 那么spark是怎么完成这些工作的, 本文将通过分析源码来解释RDD的重复利用过程. 在上一篇文章解释了spark的执行机制, DAGScheduler负责分解action, 在DAGScheduler.getMissingParentStages中, spark首次利用了过去的RDD, 而所使用的函数就是DAGScheduler.getCacheLocs. 1 private val cacheLocs = new

one page has two <form:input path="relatedArtic>

问题描述: 在一个页面中定义了两个path值相同的<form:input>,但是在添加了Spring MVC数据验证的时候出现了会将这两个值设置为"'",不知道是什么情况? 主要代码如下: <form:input path="relatedArticleIds" class="form-control" /> <form:input path="relatedArticleIds" class=&

Django——惰性机制

Django惰性机制 所谓惰性机制:Publisher.objects.all()或者.filter()等都只是返回了一个QuerySet(查询结果集对象), 它并不会马上执行sql,而是当调用QuerySet的时候才执行. 了解什么是QuerySet? QuerySet是查询集,就是传到服务器上的url里面的查询内容. Django会对查询返回的结果集QuerySet进行缓存,这是为了提高查询效率. 也就是说,在你创建一个QuerySet对象的时候,Django并不会立即向数据库发出查询命令,

Django 惰性机制

惰性机制:Publisher.Book.objects.all()或者.filter()等都只是返回了一个QuerySet(查询结果集对象),它并不会马上执行sql,而是当调用QuerySet的时候才执行sql,为了测试,我们加上 sql 日志. 在 settings.py 文件上添加下面代码 # 在里面添加 LOGGING = { 'version': 1, 'disable_existing_loggers': False, 'handlers': { 'console':{ 'level'

Django中的惰性机制

惰性机制:Publisher.objects.all()或者.filter()等都只是返回了一个QuerySet(查询结果集对象),它并不会马上执行sql,而是当调用QuerySet的时候才执行sql,为了测试,我们加上 sql 日志. 在 settings.py 文件上修改 1 # 在最后添加 2 LOGGING = { 3 'version': 1, 4 'disable_existing_loggers': False, 5 'handlers': { 6 'console':{ 7 'l