多种字符集并存情况下sqoop从MySQL导入HBase中文乱码解决

最近在做binlog日志采集同步到数据平台的事。刚开始需要借助sqoop将从库数据表数据初始化到hbase中，整个过程都需要自动化进行，尽量减少人为干预。但是，由于历史原因，线上存在两种字符集格式的数据库（表），而导入到hbase的数据我们需要统一采用utf-8格式存储。sqoop直接导入的话，没法控制中文字符转码工作。所以需要对sqoop源码进行简单改动支持这种方式。

大体思路是，通过定义一个接口可以从InformationSchema库的tables中获取某个表的table-collation。这样做的原因是我们关注的字符集粒度确定到表级别，因为有些库虽然是utf但是表确是latin1。将获取到的table-collation放入ImportJobContext中，进而将其放入HBaseImportJob的conf中。之后通过HBasePutProcessor将其设入ToStringPutTransformer的tableCollation属性中，最后在完成Put对象组装过程中，就会利用上该属性判断是否需要针对latin1和utf8的字符串数据进行转码。

同时还要注意在开始时，获取到数据库连接的方法中，需要首先执行一个query "set names utf8"。

具体代码可以参考：http://url.cn/UmWQUd，全卷搜索huanggang，可以看到所有改动的代码片段。

时间： 2024-10-12 04:09:49

多种字符集并存情况下sqoop从MySQL导入HBase中文乱码解决的相关文章

Linux下Tomcat向MySQL插入数据中文乱码解决办法

Linux下Tomcat向MySQL插入数据中文乱码解决办法一.问题在windows上面使用eclipse开发的项目在windows上面运行一切正常,部署到腾讯云时出现向MySQL数据库中插入数据是中文乱码二.解决办法 1.尝试一直接在linux上面使用insert语句插入中文,正常2.尝试二在tomcat配置文件server.xml中加入useBodyEncodingForURI="true",不行3.尝试三在tomcat配置文件server.xml中再加入URIEncodin

mysql使用utf8中文乱码解决方法

最近,我在做一个项目的部署,这个项目是已nginx为前端代理两个tomcat的节点,通过mysql-proxy代理访问两台主从的mysql数据库. 整个项目搭建部署完成,进行测试,发现打开网页出现中文乱码.好吧,我进行修改. 开始以为是mysql数据库配置有问题,查看mysql的配置文件my.conf,内容如下: [mysqld] datadir=/usr/local/mysql/data socket=/tmp/mysql.sock user=mysql skip-character-set-

Centos下安装部署gisserver及centos6-7中文乱码解决

1．部署前准备 1.1操作系统centos6.x 1.2jdk1.8.0_151 1.3apache-tomcat-7.0.81 1.4Gisserver安装文件 2．部署程序运行环境 2.1解压安装jdk tar -zxf jdk-8u151-linux-x64.tar.gz mv jdk1.8.0_151/ /usr/local/ 2.2设置jdk环境变量 #编辑名为java.sh的shell脚本 vi /etc/profile.d/java.sh JAVA_HOME=/usr/local/

mysql导入数据中文乱码_ubuntu

1.在ubuntu中mysql的部分编码格式不是utf-8,故在导文件的时候会出现中文乱码,Windows中编码格式为gbk,因此要修改mysql的编码方式为utf-8. 2.查看MySQL编码格式: a.进入MySQL b. 输入 1 show variables like '%chart%': 3.修改编码方式(永久): 进入Termina: a.输入:sudo vi /etc/mysql/my.cnf 或 sudo vi /etc/mysql/conf.d/mysql.cnf(mysql5

MySQL安装及中文乱码解决

MySQL安装终端输入 sudo apt-get install mysql-server 启动和关闭mysql服务器 service mysql start service mysql stop 进入mysql shell界面 mysql -u root -p 在Ubuntu18.04第一次安装mysql进入Shell时,需要设置密码 sudo cat /etc/mysql/debian.cnf 得到一系列信息: user password 用mysql -u debian-sys-main

使用sqoop从mysql导入数据到hive

前言这篇文章主要是用sqoop从mysql导入数据到hive时遇到的坑的总结. 环境: 系统:Centos 6.5 Hadoop:Apache,2.7.3 Mysql:5.1.73 JDK:1.8 Sqoop:1.4.7 Hadoop以伪分布式模式运行. 一.使用的导入命令我主要是参考一篇文章去测试的,Sqoop: Import Data From MySQL to Hive. 参照里面的方法,在mysql建了表,填充了数据,然后按照自己的情况输入了命令: sqoop import --co

教程 | 使用Sqoop从MySQL导入数据到Hive和HBase

基础环境 sqoop:sqoop-1.4.5+cdh5.3.6+78, hive:hive-0.13.1+cdh5.3.6+397, hbase:hbase-0.98.6+cdh5.3.6+115 Sqool和Hive.HBase简介 Sqoop Sqoop是一个用来将Hadoop和关系型数据库中的数据相互转移的开源工具,可以将一个关系型数据库(例如 : MySQL ,Oracle ,Postgres等)中的数据导进到Hadoop的HDFS中,也可以将HDFS的数据导进到关系型数据库中. Hiv

sqoop从mysql导入到hdfs

1.mysql -- 创建数据库 create database logs; -- 使用 use logs; -- 创建表 create table weblogs( md5 varchar(32), url varchar(64), request_date date, request_time time, ip varchar(15) ); -- 从外部文本文件加载数据 load data infile '/path/weblogs_entries.txt' into table

mysql导入导出数据中文乱码解决方法小结

inux系统中 linux默认的是utf8编码,而windows是gbk编码,所以会出现上面的乱码问题. 解决mysql导入导出数据乱码问题首先要做的是要确定你导出数据的编码格式,使用mysqldump的时候需要加上--default-character-set=utf8, 例如下面的代码: 复制代码代码如下: mysqldump -uroot -p --default-character-set=utf8 dbname tablename > bak.sql 那么导入数据的时候也要使用--

猜你喜欢

winmdows server 2012设置多用户登录

1.进入本地组策略编辑器devmgmt.msc 2.计算机配置→管理模板→Windows组件→远程桌面服务→远程桌面回话主机→连接: (1)禁用<将远程桌面服务用户限制到单独的远程桌面服务会话& ...

[LeetCode][JavaScript]Single Number II

Single Number II Given an array of integers, every element appears three times except for one. Find ...

linux目录（转载）

目录 1.树状目录结构图 2./目录 3./etc/目录 4./usr/目录 5./var/目录 6./proc/目录 7./dev/目录该文章主要来自于网络进行整理. 目录结构参考地址: http ...

CentOS6.3修复模式/单用户模式修改fstab文件

今天修改LVM逻辑卷的名称时候,忘记更改fstab配置文件了,导致机器重启后找不到盘,进不了系统!立即用光盘进入修复模式进行修复! 1.修复模式操作方法: 用光盘进入Linux修复模式,插入cent ...

WP8.1 UI 编程十一、列表

1. 列表控件: ItemsControl:最基本的列表控件,原生不支持滚动和虚拟化等.ListBox,Pivot,Hub等控件就是从它派生. ListBox:使用广泛的列表控件,支持虚拟化. Lis ...

result type struts2标签

<result type=""></result> type属性的值共有10个: <result-types> <result-type ...

/bin,/sbin,/usr/bin,/usr/sbin区别

/bin,/sbin,/usr/bin,/usr/sbin区别 / : this is root directory root 用户根目录 /bin : command ...

记录自己第一次犯这样的错误

今天在公司时候.我对一个类进行2次提交svn时候,第一次和第二次想差一分多中,第二次提交时候心里没想啥就提交了,这时候我没意识到有人提交过了,而我没有更新情况下进行了提交! 很蛋疼的事情!!! 我覆盖 ...

RxJava入门之路（一）

RxJava接触过蛮长时间了,但是让我说个所以然来还是说不出来,归根结底还是还是理解不够深刻,趁着年底这个时候争取写个系列出来给自己的学习做个记录注意区分RxJava1.0和2.0的区别,以下默认是 ...

DNS协议与DNS服务器搭建(bind)

写在前面: 博客书写牢记5W1H法则:What,Why,When,Where,Who,How. 本篇主要内容: ● tcp/ip回顾 ● DNS协议/DNS服务相关概念 ● bind安装配置正向 ...

过滤特殊输入字符（Java）

Arbitrary text placed in an HTML tag often needs to be altered, to ensure that the resulting HTML re ...

CentOS使用yum安装php性能测试工具xhprof

1.首先我们安装xhprof: yum install xhprof 2.安装好之后,找到xhprof的配置文件xhprof.conf,一般会在/etc/php.d里面,加入这2行: extensio ...

Maven插件之portable-config-maven-plugin(不同环境打包)

大型项目中,分开发环境.测试环境.生产环境等; 不同环境,配置不同,或数据源,或服务器,或数据库等; 问题来了,如何使用Maven针对不同的环境来打包呢? Maven提供了Profile的概念,用来解 ...

ssh中org.springframework.orm.hibernate4.support.OpenSessionInViewFilter的作用及配置

org.springframework.orm.hibernate4.support.OpenSessionInViewFilter 是Spring为我们解决Hibernate的Session的关闭 ...

解决zabbix邮件内容为附件

安装zabbix之后,设置邮件脚本报警的时候,发送的报警内容变成了tcmime.1278.1278.1724.bin或ATT00001.bin. yum -y install mailx dos2u ...

QF——OC中的KVC,KVO

KVC: (Key Value Coding) 键值编码所谓KVC,其实就是不通过set和get方法访问属性,而是通过其他几个方法. 之所以每个对象都有KVC能力,是因为NSObject类实现了NS ...

用PHP Email发送表单内容（10）- 发送邮件

这一节的内容是发送邮件,有以下几点需要注意: 1.mail函数的格式,各个参数的格式: 2.发送成功之后,应该给用户怎样的反馈? 3.如果没有发送成功,改给用户什么样的反馈? 主要是增加了下面这些代码 ...

windows应用程序创建PDF417条码

PDF417 Fontware条形码控件使你的windows应用程序创建PDF417条码变得十分简单,你的应用程序可以使用字体.Win32 DLL编码器..NET类库编码器打印DataMatrix条码 ...

C# 更新控件四部曲，自定义的用户控件无法更新怎么办

用户控件如果在其他的项目被引用,希望更新控件后,所引用的项目同步更新效果,一开始难免失败,特别是更换了控件所在的文件夹. 这个时候,四部曲来解决控件的更新. 1.运行一下控件的项目,使控件生成一下. ...

WEB系统开发误区汇总

1.hibernate给开发人员带来的便利——封装是好事,但是往往它会导致流程复杂化,hibernate就是一个典型的例子,它在给开发人员带来封装便利的同时,一些时候带来的性能压力也不容忽视.HQL语 ...

专题

随机推荐

© 2024 憋错料 | info#biecuoliao.com | 10 q. 0.026 s.