考试时间: 姓名:____________
考试成绩:____________ 考试时长:180 分钟
注意事项:
1. 自主答题,不能参考任何除本试卷外的其它资料。
2. 总成绩共 200 分,共 20 题,每题 10 分,注意条理清楚、简明扼要、重点突出。
1. Hive 的架构设计与运行流程,及其各模块的主要作用是什么,请画出架构图
2. Hive 的数据模型组成,及各组成模块的应用场景,请简要描述
3. Hive 支持的文件格式和压缩格式,及其各自的特点?
4. Hive 内外表的区分方法,及内外表的差异点?
5. Hive 视图如何创建,视图有什么特点,及其应用场景?
6、Hive 常用的 12 个命令,及其作用
7、Hive 常用的 10 个系统函数,及其作用
8、请详细描述将一个有结构的文本文件 student.txt 导入到一个 Hive 表当中的步骤,及其关键字?
9、请简述 udf/udaf/udtf 是什么,各自解决的问题,及典型代表应用场景。
10、udaf 的实现步骤,及其包含的主要方法,及每个方法要解决的问题,并写代码自实现聚合函数 max 函数?
11、 hive 设置参数的方法有哪些?并列举 8 个常用的参数设置?
12、HIVE 数据倾斜的可能原因有哪些?主要解决方法有哪些?
13、数据仓库之数据架构设计图,及每个模块的主要作用?
14、利用 HiveSQL 语句,创建如下两张表:
创建员工基本信息表(EmployeeInfo),字段包括(员工 ID,员工姓名,员工身份证号,性别,年龄,所属部门,岗位,入职公司时间,离职公司时间),分区字段为入职公司时间,其行分隔符为”\n “,字段分隔符为”\t “。其中所属部门包括行政部、财务部、研发部、教学部,其对应岗位包括行政经理、行政专员、财务经理、财务专员、研发工程师、测试工程师、实施工程师、讲师、助教、班主任等,时间类型值如:2018-05-10 11:00:00
创建员工收入表(IncomeInfo),字段包括(员工 ID,员工姓名,收入金额,收入所属
月份,收入类型,收入薪水的时间),分区字段为发放薪水的时间,其中收入类型包括薪资、
奖金、公司福利、罚款四种情况 ; 时间类型值如:2018-05-10 11:00:00。
15、用 HQL 实现,求公司每年的员工费用总支出各是多少,并按年份降序排列?
16、用 HQL 实现,求各部门每年的员工费用总支出各是多少,并按年份降序,按部门的支出升序排列?
17、用 HQL 实现,求各部门历史所有员工费用总支出各是多少,按总支出多少排名降序,遇到值相等情况,不留空位。
18、用 HQL 实现,创建并生成员工薪资收入动态变化表,即员工 ID,员工姓名,员工本月薪资,本月薪资发放时间,员工上月薪资,上月薪资发放时间。分区字段为本月薪资发放时间。
19、用 HQL 实现,薪资涨幅方面,2018 年 5 月份谁的工资涨的最多,谁的涨幅最大?
20、对象二分查找的实现。
有学生基本信息类 Student,包括字段学号,姓名,班级,入学日期,共四个字段。其中学号是 SXXX 的格式,如 S001,S002 等。
现给定 6 个学生对象,如:
(S100,’张一”,”计科 1 班”,20180903),
(”S110”, ”张二”,”计科 1 班”,20180903),
(”S090”, ”张三”,”计科 2 班”,20180830),
(”S080”, ”张四”,”计科 2 班”,20180904),
(”S070”, ”张五”,”计科 2 班”,20180901),
(”S101”, ”张六”,”计科 1 班”,20180902),
求给定学号”S101”,通过对以上对象集进行二分查找后,确定是否在已给定的学生对象中,
若存在,则打印该学生信息,若不存在,则输出”查无此人”。
原文地址:https://www.cnblogs.com/wqbin/p/11107417.html