hadoop streaming 中跑python程序，自定义模块的导入

今天在做代码重构，以前将所有python文件放到一个文件夹下，上传到hadoop上跑，没有问题；不过随着任务的复杂性增加，感觉这样甚是不合理，于是做了个重构，建了好几个包存放不同功能的python文件，历程如下：

1. 刚开始的时候，在IDE里搞，点击运行，正确、非常赞；

2. 然后搬到服务器上搞，出现了这样的问题：

ImportError: no module named XXX

啊，看样子是包引用中路径不对，于是找文章解决：

　　python中，每个py文件被称之为模块，每个具有__init__.py文件的目录被称为包。只要模
块或者包所在的目录在sys.path中，就可以使用import 模块或import 包来使用
如果你要使用的模块（py文件）和当前模块在同一目录，只要import相应的文件名就好，比
如在a.py中使用b.py：
import b

但是如果要import一个不同目录的文件(例如b.py)该怎么做呢？
首先需要使用sys.path.append方法将b.py所在目录加入到搜素目录中。然后进行import即
可，例如

import sysimport oscurPath = os.path.abspath(os.path.dirname(__file__))rootPath = os.path.split(curPath)[0]sys.path.append(rootPath)

第一个问题解决，高兴！

3. 而后尝试在hadoop-streaming上跑程序，额，一直在报错：

ImportError: no module named XXX

心想也是因为这个路径问题，试了很多种方法：

　　后来在stackoverflow发现有人问了同样的问题，并且我使用其中一个方案解决了:

When Hadoop-Streaming starts the python scripts, your python script‘s path is where the script file really is. However, hadoop starts them at ‘./‘, and your lib.py(it‘s a symlink) is at ‘./‘, too. So, try to add ‘sys.path.append("./")‘ before you import lib.py like this:
import sys
sys.path.append(‘./‘)
import lib当Hadoop-Streaming启动python脚本时，您的python脚本的路径就是脚本文件的实际位置。 然而，hadoop以‘./‘开头，lib.py（它是一个符号链接）也在‘./‘。 因此，在导入lib.py之前，尝试添加“sys.path.append（”./“）”“。 import sys sys.path.append(‘./‘) import lib

并且导入模块和包时，不能用 from XXX import YYY的方式做了，必须要用 import XXX， 使用YYY的时候，要用XXX.YYY来调用；反复尝试终于发现了这点。也算没白费时间吧。

原文地址：https://www.cnblogs.com/wrh526/p/9456558.html

时间： 2024-11-08 22:55:33

hadoop streaming 中跑python程序，自定义模块的导入

hadoop streaming 中跑python程序，自定义模块的导入的相关文章

what's the python之自定义模块和包

Python学习教程（Python学习路线）：教你如何在交互式环境中执行Python程序

Python调用自定义模块方法有什么？

python调用自定义模块方法 python培训中心

执行Python程序时模块报错

如何在Windows系统中设置Python程序定时运行

Python包和模块的导入问题

python基础四(模块的导入)

hadoop 流streaming跑python程序