2017 级课堂测试试卷—数据清洗进度记录

数据清洗:按照进行数据清洗,并将清洗后的数据导入hive数据库中

利用mapreduce完成将txt文件中数据存放在一个数组中,未成功连接hive数据库并存放在hive数据库中

目前完成代码:

package org.apache.hadoop.examples;
import java.io.IOException;
import java.util.StringTokenizer;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.NullWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.Mapper;
import org.apache.hadoop.mapreduce.Reducer;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;
public class WordCount1{
public static void main(String[] args) throws IOException, ClassNotFoundException, InterruptedException {
Job job = Job.getInstance();
job.setJobName("WordCount1");
job.setJarByClass(WordCount1.class);
job.setMapperClass(doMapper.class);
job.setReducerClass(doReducer.class);
job.setOutputKeyClass(Text.class);
job.setOutputValueClass(NullWritable.class);
Path in = new Path("hdfs://localhost:9000/user/hadoop/input/resault");
Path out = new Path("hdfs://localhost:9000/user/hadoop/output2");
FileInputFormat.addInputPath(job, in);
FileOutputFormat.setOutputPath(job, out);
System.exit(job.waitForCompletion(true) ? 0 : 1);
}
public static class doMapper extends Mapper<Object, Text, Text,  NullWritable>{
public static Text word = new Text();
@Override
protected void map(Object key, Text value, Context context)
throws IOException, InterruptedException {
    String line = value.toString();
    String arr[] = line.split(",");
word.set(arr[0]+"  "+arr[1]+"  "+arr[3]+"  "+arr[4]+"/"+arr[5]);
context.write(word,  NullWritable.get());
}
}
public static class doReducer extends Reducer<Text, NullWritable, Text,  NullWritable>{
@Override
protected void reduce(Text key, Iterable<NullWritable> values, Context context)
throws IOException, InterruptedException {
context.write(key, NullWritable.get());
}
}
}

原文地址:https://www.cnblogs.com/jinseliunian/p/11854049.html

时间: 2024-10-06 18:47:36

2017 级课堂测试试卷—数据清洗进度记录的相关文章

java_000.JAVA语言课堂测试试卷01

在暑假各种自学,来学校发现还要考文件,又补文件,至于数据库,卡在了插入数据,可以打印所有的数据但就是插入老师出错.(当然今天下午这一问题已经解决了).在上周四,迎来了Java考试,原定1个半小时,由于试卷更改,改为2个半,又延长到3个小时.我就感觉我顺着自己的思路往下写,写一段验证一下,也没出现什么bug,但写着写着时间就到了,最终只写出来框架和账户登陆,存款,取款,修改密码,文件完全没写到.老师说他花了两个小时写完,还觉得自己很慢了. 题目就是ATM取款机,要求有字符打印的界面,输入账户密码来

大数据课堂测试3——数据清洗(1)

两阶段数据清洗: (1)第一阶段:把需要的信息从原始日志中提取出来 ip:    199.30.25.88 time:  10/Nov/2016:00:01:03 +0800 traffic:  62 文章: article/11325 视频: video/3235 (2)第二阶段:根据提取出来的信息做精细化操作 ip--->城市 city(IP) date--> time:2016-11-10 00:01:03 day: 10 traffic:62 type:article/video id

JAVA语言课堂测试试卷01学生信息管理系统

1.源程序思路:将成绩录入.成绩修改.计算绩点.退出系统分别写成四个函数,主函数利用switch以及while循环完成调用和循环. 2.程序源代码: package Studen; //定义ScoreInformation类class ScoreInformation { private String stunumber; private String name; private double mathematicsscore; private double englishiscore; pri

2019年10月21日课堂测试

一.题目 石家庄铁道大学2019年秋季   2018 级课堂测试试卷(六)(10分) 课程名称: JAVA语言程序设计  任课教师:王建民        考试时间: 150 分钟 一.   考试要求: 1登录账号:要求由6到12位字母.数字.下划线组成,只有字母可以开头:(1分) 2登录密码:要求显示“• ”或“*”表示输入位数,密码要求八位以上字母.数字组成.(1分) 3性别:要求用单选框或下拉框实现,选项只有“男”或“女”:(1分) 4学号:要求八位数字组成,前四位为“2018”开头,输入自

第一次被要求连接数据库的课堂测试

1.     题目要求 按照图片要求设计添加新课程界面.(0.5分) 在后台数据库中建立相应的表结构存储课程信息.(0.5分) 实现新课程添加的功能. 要求判断任课教师为王建民.刘立嘉.刘丹.王辉.杨子光五位教师的其中一位.(0.5分) 要求上课地点开头为"一教.二教.三教.基教"中的一种.(0.5分) 实现数据存储功能.(3分) 将课堂练习设计思想,源程序代码.运行结果截图的开发过程,并按照PSP0级的要求记录开发过程中的项目计划日志.时间记录日志.缺陷记录日志. 课堂练习的源代码上

【2017级面向对象程序设计寒假作业】第2次成绩排行

[2017级面向对象程序设计寒假作业]第2次成绩排行 作业地址 http://www.cnblogs.com/easteast/p/8421230.html 评分准则 本次作业满分 20 分,其中代码分数 10分.博客分数 10 分. 代码得分点在于: 运行10个测试点,视通过测试点的数量而定基础分.若存在仓库无代码文件或代码不通过编译.编译后无法运行等则视情况扣除大量分数. 是否符合输出规范.由于此次主要测试在于最终输出的乘客等待时间和,若对于各楼层的停靠情况的输出不合理则扣分较少,希望在之后

RMAN 0级恢复测试---RAC+ASM恢复到单机

最近做了一次RMAN 0 级恢复测试,测试模拟了生产数据库发生灾难性故障,只剩下rman全备份的备份片,利用备份的spfile.控制文件.数据文件.归档日志恢复数据的过程. 首先说一下环境,网上很多文章都是互相粘贴,并不一定适用于你的测试环境.我这次测试的生产环境是2个节点的RAC,存储使用了ASM去管理,操作系统为RHEL6.4,Oracle11.2.0.4,rman每日全备份,使用全备份去恢复数据.恢复的机器选择了1台PC机,安装RHEL6.4,操作系统.Oracle版本均和服务器一致,区别

课堂测试——数据位数、位数输出、各位数上数据求和

2016.10.18Java课堂测试 在课堂上写的时候,写到各位书身上数据输出时.因为处理不好取最高位的步骤所以不能继续进行编程. 经过后期查找之后: 引用import static java.lang.Math.*; 求x的y次方运算,Math.pow(x,y); 求整数部分,Math.floor();//这里运行之后发现是double类型所以又用了强制转换. 将Int转换为Double类型,int number1=(int) number2; 另外的问题就是: 因为数据上存在多次变化使用,所

20155321 《信息安全系统设计》课堂测试(ch06)

20155321 <信息安全系统设计>课堂测试(ch06) (单选题|1分)下面代码中,对数组x填充后,采用直接映射高速缓存,所有对x和y引用的命中率为() A .1 B .1/4 C .1/2 D. 3/4 解析:P431,填充消除了冲突不命中,因此,四分之三的引用是命中的 正确答案:D (多选题|1分)有关高速缓存的说法正确的是() A .高速缓存的容量可以用C=SEB来计算 B .高速缓存容量为2048,高速缓存结构为(32,8,8,32) C .直接映射高速缓存要:组选择.行匹配.字抽