users = load ‘/users.data‘ using PigStorage() as (name:chararray, age:int, address:chararray);
load ‘xx‘:
1)xx可以是文件,也可以是文件夹。如果是文件夹,则文件夹下的所有文件(包括子文件夹)都作为输入文件。
2)xx可以是匹配字符,参考Hadoop的globStatushttp://hadoop.apache.org/docs/current/api/org/apache/hadoop/fs/FileSystem.html#globStatus(org.apache.hadoop.fs.Path)
LOAD ‘/mydata/20110423{00,01,02,03,04,05,06,07,08,09,{10..23}}00//part ‘
using PigStorage:
1)可以添加分隔符参数,using PigStorage(‘,‘);
2)可以是其他加载函数,using HbaseStorage()
as (name:chararray, age:int, address:chararray):
1)可以只指定字段名, as(name, age, address),字段的类型将交由Pig自己推测。
时间: 2024-10-27 12:02:36