Mysql 上亿级数据导入Hive思路分享

前提条件：

数据库容量上亿级别，索引只有id，没有创建时间索引

达到目标：

把阿里云RDS Mysql表数据同步到hive中，按照mysql表数据的创建时间日期格式分区，每天一个分区方便查询
每天运行crontab定时的增量备份数据，还是依据自增的id

遇到的问题：

没法建立创建时间的索引，不能按时间范围去查询，那样会严重影响线上数据库的性能？
只能按照id的方式去增量的读取索引，存储到临时表，然后在转储到正式表，动态的写入时间分区
使用sqoop直接导入hive？还是把数据导入到hdfs以內建表的形式把数据写入到指定的临时表？
如果直接使用sqoop hive import 不支持，query 语句，没法自定义抽取字段，没办法按照id范围去锁定部分数据，
使用hive import只能全量同步表而且id条件只能配到各个地方，我个人感觉query比较适合我灵活一些所以就使用
sqoop导入hdfs內建表的方式来同步数据

读取和写入一次要分配，不能一次读取太多，影响线上数据库的性能，线上数据库用的阿里云RDS？
1. 首先查询mysql max(id),和 hive max(id),计算差值后分批去加载，查询hive max 没有直接连接hive,而是使用了一个迂回策略，
使用python调用系统命令行执行hive -e 查询最大值，并写入到本地文件系统，然后查询本地文件系统最大值
2.我这里是按每次300万一次，单次差值小于300万执行一次加载
3.用sqoop分4个map任务去执行，300万数据大概需要1-2分钟左右读取到本地
4. mysql中需要5秒左右查询min,max,id 确定本次数据分割的id范围，
5.单个map任务大概需要15秒左右来读取和发送数据到sqoop,sqoop到hdfs內建表很快不会有压力这里就不写了
hive表初次创建同步的时候需要从临时表重建动态分区到正式表，数据跨度太大，一天天重建太耗时间？
步骤一：数据刚开始同步的时候先不开启转正式表并动态分区，先把全量的数据同步到hive的临时表中，同步完成后，把全量的临时表转到正式表，动态写入分区数据
步骤二：数据已经全量同步进来了，此时创建crontab任务，定时调用同步脚本，把增量的数据插入到临时表，然后把指定时间的数据转入正式分区，此步骤会把当前id最新的数据同步过来，范围是从上次同步的id到今天最大的id，日期有昨天有今天，这边正式表筛选出昨天的全部数据就行

原文地址：https://www.cnblogs.com/buoge/p/8908537.html

时间： 2024-10-08 16:09:58

Mysql 上亿级数据导入Hive思路分享的相关文章

NEO4J亿级数据导入导出以及数据更新

1.添加配置 apoc.export.file.enabled=true apoc.import.file.enabled=true dbms.directories.import=import dbms.security.allow_csv_import_from_file_urls=true 2.导出操作 CALL apoc.export.csv.all('C:\\Users\\11416\\.Neo4jDesktop\\neo4jDatabases\\database-bcbe66f8-2

实战：上亿数据如何秒查（转）

最近在忙着优化集团公司的一个报表.优化完成后,报表查询速度有从半小时以上(甚至查不出)到秒查的质变.从修改SQL查询语句逻辑到决定创建存储过程实现,花了我3天多的时间,在此总结一下,希望对朋友们有帮助. 数据背景首先项目是西门子中国在我司实施部署的MES项目,由于项目是在产线上运作(3 years+),数据累积很大.在项目的数据库中,大概上亿条数据的表有5个以上,千万级数据的表10个以上,百万级数据的表,很多... (历史问题,当初实施无人监管,无人监控数据库这块的性能问题.ps:我刚入职不

实战：上亿数据如何秒查

最近在忙着优化集团公司的一个报表.优化完成后,报表查询速度有从半小时以上(甚至查不出)到秒查的质变.从修改SQL查询语句逻辑到决定创建存储过程实现,花了我3天多的时间,在此总结一下,希望对朋友们有帮助. 数据背景首先项目是西门子中国在我司实施部署的MES项目,由于项目是在产线上运作(3 years+),数据累积很大.在项目的数据库中,大概上亿条数据的表有5个以上,千万级数据的表10个以上,百万级数据的表,很多- (历史问题,当初实施无人监管,无人监控数据库这块的性能问题.ps:我刚入职不久-)

MySQL使用pt-online-change-schema工具在线修改1.6亿级数据表结构

摘要:本文阐述了MySQL DDL 的问题现状.pt-online-schema-change的工作原理,并实际利用pt-online-schema-change工具在线修改生产环境下1.6亿级数据表结构. 在一个软件生命周期中,我们都知道,前期的表结构设计是非常重要的,因为当表数据量一上来后再进行表结构修改危险性比较大,而且要操作的时间也比较长. 在笔者参与的项目中,就曾遇到这样一个问题,首先上去查看了一下该表的信息,已有约2亿的数据量,而且每分钟还要并发写入4万条记录,而由于这个表有一个

数据库选型之亿级数据量并发访问（MySQL集群）

刘勇 Email:[email protected] 简介针对实际应用中并发访问MySQL的场景,本文采用多线程对MySQL进行并发读取访问,其中以返回用户所需的数据并显示在终端为测试结束节点,即将数据从MySQL集群读取后存储于客户端本地内存中.测试过程如下:分别针对4种应用场景,从10.20.50.100个线程对MySQL展开测试.测试结果表明:对场景1)一般的并发访问能够满足需求:对于场景2)和3)响应时间在分钟级,分别处于1-3分钟和10分钟左右:对于场景4)则经常会抛出异常,并且

2016sdcc中国开发者大会参后感（一）：亿级数据秒处理架构设计

2016sdcc中国开发者大会参后感 sdcc大会可以理解是中国整个IT行业技术大牛的一个分享会,有幸参加此会,首先要感谢我的好兄弟阿辉,他给我推荐此大会赠我入场券并且督促我参与,真的非常感谢. sdcc分享会是由csdn从2007年开始每年举办的一次技术嘉年华,邀请行业内近百名技术大牛倾力分享所在公司运用的前沿IT技术,其中大多来自阿里巴巴.京东.腾讯.百度等高科技互联网公司,其中还一些初创公司的ceo的创业经历的分享. 其实我知道这次去肯定要被虐惨,毕竟我还是知道自己属于哪个层次,但是不管怎

服务上亿用户，中国结算新一代数据集市技术实践

作者介绍: 卢向澄金融科技领域十余年工作经验,目前在中国证券登记结算公司从事技术架构工作,专注于技术中台.云平台.大数据平台等领域. 1. 背景介绍我国股市约有1.2亿散户,直接关乎上亿家庭.数亿人切身利益,保护好投资者尤其是中小投资者的合法权益,是资本市场工作人民性的具体体现,也是服务实体经济的应有之义.党的十九大明确提出"必须坚持以人民为中心的发展思想".中国证监会有关负责人表示,要认真贯彻落实十九大精神和党中央.国务院关于资本市场建设的一系列决策部署,加快推动形成融资功能完备

优雅的将hbase的数据导入hive表

v\:* {behavior:url(#default#VML);} o\:* {behavior:url(#default#VML);} w\:* {behavior:url(#default#VML);} .shape {behavior:url(#default#VML);} wgx wgx 2 67 2016-04-02T15:15:00Z 2016-04-02T15:15:00Z 1 233 1332 11 3 1562 15.00 Clean Clean false 7.8 磅 0

sqoop1.4.5 导入 hive IOException running import job: java.io.IOException: Hive exited with status 1

sqoop 导入 hive hive.HiveImport: Exception in thread "main" java.lang.NoSuchMethodError: org.apache.thrift.EncodingUtils.setBit(BIZ)B ERROR tool.ImportTool: Encountered IOException running import job: java.io.IOException: Hive exited with status 1