从Hadoop URL中读取数据

要从Hadoop文件系统中读取文件，一个最简单的方法是使用java.net.URL对象来打开一个数据流，从而从中读取数据。一般的格式如下：

1. InputStream in = null;

2. try {

3. in = new URL("hdfs://host/path").openStream();

4. // process in

5. } finally {

6. IOUtils.closeStream(in);

7. }

这里还需要一点工作来让Java识别Hadoop文件系统的URL 方案，就是通过一个FsUrlStreamHandlerFactory实例来调用在URL中的setURLStreamHandler-Factory方法。这种方法在一个Java虚拟机中只能被调用一次，因此一般都在一个静态块中执行。这个限制意味着如果程序的其他部件(可能是不在你控制中的第三方部件)设置一个URLStreamHandlerFactory，我们便无法再从Hadoop中读取数据。下一节将讨论另一种方法。

例3-1展示了以标准输出显示Hadoop文件系统的文件的程序，它类似于Unix的cat命令。

例3-1：用URLStreamHandler以标准输出格式显示Hadoop文件系统的文件

1. public class URLCat {

3. static {

4. URL.setURLStreamHandlerFactory(new FsUrlStreamHandlerFactory());

5. }

7. public static void main(String[] args) throws Exception {

8. InputStream in = null;

9. try {

10. in = new URL(args[0]).openStream();

11. IOUtils.copyBytes(in, System.out, 4096, false);

12. } finally {

13. IOUtils.closeStream(in);

14. }

15. }

16. }

我们使用Hadoop中简洁的IOUtils类在finally子句中关闭数据流，同时复制输入流和输出流之间的字节(本例中是System.out)。copyBytes方法的最后两个参数，前者是要复制的缓冲的大小，后者表示复制结束后是否关闭数据流。这里是将输入流关掉了，而System.out不需要关闭。

下面是一个运行示例：

1. % hadoop URLCat hdfs://localhost/user/tom/quangle.txt

2. On the top of the Crumpetty Tree

3. The Quangle Wangle sat,

4. But his face you could not see,

5. On account of his Beaver Hat.

时间： 2024-12-20 06:06:29

从Hadoop URL中读取数据

从Hadoop URL中读取数据的相关文章

ffmpeg 从内存中读取数据

从plist文件中读取数据

Mean and Standard Deviation-从文件中读取数据计算其平均数和标准差

非常标准的将数据保存到file并从file中读取数据。

从多个XML文档中读取数据用于显示webapi帮助文档

VC++ 从文档中读取数据

无法从传输连接中读取数据: 远程主机强迫关闭了一个现有的连接

【Python】从文件中读取数据

程序一用记事本建立文件src.dat，其中存放若干字符。编写程序，从文件src.dat中读取数据，统计其中的大写字母、小写字母、数字、其它字符的个数，并将这些数据写入到文件test.dat中。