hive array、map、struct使用

hive提供了复合数据类型:
Structs: structs内部的数据可以通过DOT(.)来存取,例如,表中一列c的类型为STRUCT{a INT; b INT},我们可以通过c.a来访问域a
Maps(K-V对):访问指定域可以通过["指定域名称"]进行,例如,一个Map M包含了一个group-》gid的kv对,gid的值可以通过M[‘group‘]来获取
Arrays:array中的数据为相同类型,例如,假如array A中元素[‘a‘,‘b‘,‘c‘],则A[1]的值为‘b‘

Struct使用

建表:

[plain] view plaincopy

  1. hive> create table student_test(id INT, info struct<name:STRING, age:INT>)
  2. > ROW FORMAT DELIMITED FIELDS TERMINATED BY ‘,‘
  3. > COLLECTION ITEMS TERMINATED BY ‘:‘;
  4. OK
  5. Time taken: 0.446 seconds

‘FIELDS TERMINATED BY‘ :字段与字段之间的分隔符
‘‘COLLECTION ITEMS TERMINATED BY‘ :一个字段各个item的分隔符 
导入数据:

[plain] view plaincopy

  1. $ cat test5.txt
  2. 1,zhou:30
  3. 2,yan:30
  4. 3,chen:20
  5. 4,li:80
  6. hive> LOAD DATA LOCAL INPATH ‘/home/work/data/test5.txt‘ INTO TABLE student_test;
  7. Copying data from file:/home/work/data/test5.txt
  8. Copying file: file:/home/work/data/test5.txt
  9. Loading data to table default.student_test
  10. OK
  11. Time taken: 0.35 seconds

查询:

[plain] view plaincopy

  1. hive> select info.age from student_test;
  2. Total MapReduce jobs = 1
  3. ......
  4. Total MapReduce CPU Time Spent: 490 msec
  5. OK
  6. 30
  7. 30
  8. 20
  9. 80
  10. Time taken: 21.677 seconds

Array使用
建表:

[plain] view plaincopy

  1. hive> create table class_test(name string, student_id_list array<INT>)
  2. > ROW FORMAT DELIMITED
  3. > FIELDS TERMINATED BY ‘,‘
  4. > COLLECTION ITEMS TERMINATED BY ‘:‘;
  5. OK
  6. Time taken: 0.099 seconds

导入数据:

[plain] view plaincopy

  1. $ cat test6.txt
  2. 034,1:2:3:4
  3. 035,5:6
  4. 036,7:8:9:10
  5. hive>  LOAD DATA LOCAL INPATH ‘/home/work/data/test6.txt‘ INTO TABLE class_test ;
  6. Copying data from file:/home/work/data/test6.txt
  7. Copying file: file:/home/work/data/test6.txt
  8. Loading data to table default.class_test
  9. OK
  10. Time taken: 0.198 seconds

查询:

[plain] view plaincopy

  1. hive> select student_id_list[3] from class_test;
  2. Total MapReduce jobs = 1
  3. ......
  4. Total MapReduce CPU Time Spent: 480 msec
  5. OK
  6. 4
  7. NULL
  8. 10
  9. Time taken: 21.574 seconds

Map使用
建表:

[plain] view plaincopy

  1. hive> create table employee(id string, perf map<string, int>)
  2. > ROW FORMAT DELIMITED
  3. > FIELDS TERMINATED BY ‘\t‘
  4. > COLLECTION ITEMS TERMINATED BY ‘,‘
  5. > MAP KEYS TERMINATED BY ‘:‘;
  6. OK
  7. Time taken: 0.144 seconds

‘MAP KEYS TERMINATED BY’ :key value分隔符

导入数据:

[plain] view plaincopy

  1. $ cat test7.txt
  2. 1       job:80,team:60,person:70
  3. 2       job:60,team:80
  4. 3       job:90,team:70,person:100
  5. hive>  LOAD DATA LOCAL INPATH ‘/home/work/data/test7.txt‘ INTO TABLE employee;

查询:

[plain] view plaincopy

      1. hive> select perf[‘person‘] from employee;
      2. Total MapReduce jobs = 1
      3. ......
      4. Total MapReduce CPU Time Spent: 460 msec
      5. OK
      6. 70
      7. NULL
      8. 100
      9. Time taken: 20.902 seconds
      10. hive> select perf[‘person‘] from employee where perf[‘person‘] is not null;
      11. Total MapReduce jobs = 1
      12. .......
      13. Total MapReduce CPU Time Spent: 610 msec
      14. OK
      15. 70
      16. 100
      17. Time taken: 21.989 seconds
      18. hive>
      19. <span style="font-family:Arial, Helvetica, sans-serif;"><span style="white-space: normal;">
      20. </span></span>
时间: 2024-10-30 08:43:24

hive array、map、struct使用的相关文章

JavaScript Array map() 方法

语法: array.map(function(currentValue,index,arr), thisValue) currentValue:必须.当前元素的值index:可选.当期元素的索引值arr:可选.当期元素属于的数组对象thisValue:可选.对象作为该执行回调时使用,传递给函数,用作 "this" 的值.可改变this指向, map() 方法返回一个新数组,数组中的元素为原始数组元素调用函数处理后的值. map() 方法按照原始数组元素顺序依次处理元素. 注意: map

兼容低版本JS的Array.map方法

前几天去别的公司面试遇到个这样的问题,兼容IE7下的Array.map方法,一脸蒙蔽.后面回来查了下资料发现.Array.map方法是ECMA-262 标准中新添加的方法,在低版本的JS中是木有的. 看如下兼容性实现方式: 实现思路:1,先验证this对象,再将this用Object封装成obj. 2,获取封装后的obj的属性长度 3,验证是否有回调方法 4,根据obj的属性长度lengh生成新的数组,new Array(length). 5,遍历obj对象,获取mapKey,mapValue,

数组的方法 Array.map();Array.every()和Array.some();数组的indexof();

数组的方法 Array.map(); 栗子: var a=[1,2,,3]; var b=a.map( function(value){return value*value} ); alert(b); //[1,4,,9] 参数是一个函数,有返回值 返回值是一个新数组,函数调用原数组的每个元素进行函数格式化,空元素还存在. 数组的Array.every() 每一项都是真才是真;相似于&& Array.some() 某一个是真就是真:类似于|| 当验证一个空数组时: var a=[]; va

js Array Map and Set

Array slice slice()就是对应String的substring()版本,它截取Array的部分元素,然后返回一个新的Array: var arr = ['A', 'B', 'C', 'D', 'E', 'F', 'G']; arr.slice(0, 3); // 从索引0开始,到索引3结束,但不包括索引3: ['A', 'B', 'C'] arr.slice(3); // 从索引3开始到结束: ['D', 'E', 'F', 'G'] Note:slice()的起止参数包括开始索

js遍历集和(Array,Map,Set) (forEach, map, for, for...in, for...of)

1.Array可以使用下标,Map和Set不能使用下标,ES6引入了iterable类型,Array,Map,Set都属于iterable类型,它们可以使用for...of循环来遍历: var a = ['A', 'B', 'C']; var s = new Set(['A', 'B', 'C']); var m = new Map([[1, 'x'], [2, 'y'], [3, 'z']]); for (var x of a) { // 遍历Array   alert(x); } for (

forEach()、Array.map()和Array.filter()用法

Array.forEach() forEach()方法为每个数组元素调用一次函数(回调函数). <!DOCTYPE html> <html> <meta charset="utf-8"> <title>JavaScript Array.forEach()</title> <body> <h2>JavaScript Array.forEach()</h2> <p>为每个数组元素调用

[原创]Scala学习:Tuple,Array,Map ,文件操作

1.Tuple:元祖.是一个有用的容器对象. 1)特点:  ① 元祖是不可变的,即,当声明完了一个元祖,那么它的长度就不可以在改变:  ② 元祖可以包含不同类型的数据,对象:   ③ 索引是从 '_1' 开始,读取元祖中的内容 ④标识:' () ' 2)代码 1 //元祖 2 def doTuple() { 3 //'()' 定义元祖 4 val pair = (100, "scala", "spark") //元祖的类型val pair: (Int, String

MyBatis的foreach语句详解 list array map

foreach的主要用在构建in条件中,它可以在SQL语句中进行迭代一个集合.foreach元素的属性主要有 item,index,collection,open,separator,close.item表示集合中每一个元素进行迭代时的别名,index指 定一个名字,用于表示在迭代过程中,每次迭代到的位置,open表示该语句以什么开始,separator表示在每次进行迭代之间以什么符号作为分隔 符,close表示以什么结束,在使用foreach的时候最关键的也是最容易出错的就是collectio

jquery Array Map的使用

var pxs = new Array(); pxs.push("22"); jQuery.each(pxs,function(){ str +=jQuery("#"+this).parent().attr("title")+" "; }); var myMap =new Map(); myMap.put("key","value"); myMap.get(“key")