TDH大数据平台数据入库方案

一、数据入库方式

目前批量数据入库TDH大数据平台主要有如下几种方式

1、手工入录

一些静态表手工维护的数据，可以直接采用insert导入，或者使用waterdrop客户端工具导入，只适用少数据量的导入和更新

2、dblink

TDH inceptor支持建立dblink直接连接db2，oracle，mysql等关系数据库，对于一些数据量不大的静态表，手工维护的表，可以通过建立dblink的方式获取数据

优点:简单方便

缺点:1）对大数据量的表，效率较差

2）初次使用相应数据库的dblink时，需要导入对应数据库的驱动jar包到 inceptor 的lib目录，重启才能生效

3、sqoop直接抽取

可以使用sqoop的方式从RDBMS关系型数据库抽取数据到TDH大数据平台

优点:1)支持各种类型的关系型数据库；

2)数据可以直接导入到HDFS；

缺点:1)sqoop单map导入数据不快，多map导入速度快，但是同时导出的表多时，关系型数据库需要抗压

2)当生产系统的数据导出要给多个系统使用或者数据重采，每个系统都需要再次从源系统抽取数据，源系统压力较大

3)对ORACLE的colb，blob等字段，导出速度慢

4）RDBMS-文件服务器-TDH平台

先使用相应的数据库导数工具导出成文本文件，然后把文本文件上传到TDH大数据平台

优点：1）使用数据库相对应的导数工具，数据导出速度快，put到hdfs数据也快特别适合数据量大，导出表多的情况

2）当有多个系统需要使用源系统导出的数据时，可以直接共享导出的文件

3）可以制定统一的数据入库规范

缺点：1）需要文件采集服务器，增加服务器和存储成本

二、数据入库流程

3,4 两种是目前主要采用的数据入库方案，详细流程见下图

流程1

1)关系型数据库通过导数工具导出文件到采集服务器

2)采集服务把本地文件put到HDFS上

3)对PUT到hdfs上的文件建立inceptor text映射表

4) 此时可以通过sql的方式根据不同的需要把数据导入 TDH的不同类型的表里了

注:

inceptor是一个强大的分布式数据库引擎，各个不同类型表的数据可以通过inceptor使用SQL的方式互相导，简单方便快捷

流程2

1)直接通过sqoop 把RDBMS中的数据导出成hdfs文件

2)对PUT到hdfs上的文件建立inceptor text映射表

3) 此时可以通过sql的方式根据不同的需要把数据导入 TDH的不同类型的表里了

流程3

如果是文本文件

参照流程1从第二步开始导入即可

时间： 2024-08-08 13:45:56

TDH大数据平台数据入库方案的相关文章

酷客多大数据平台“数据魔方”上线，赋能小程序商户精细化运营

单商户小程序V1.7.8版本更新说明更新时间:2018年7月27号一. 更新功能清单1. 新增拼团活动与促销活动的数据统计分析功能,为商家提供活动数据参考,需要将小程序更新到最新1.7.8版本,才可以完全使用活动数据统计功能:2. 新增DIY营销活动组件,可将进行中的拼团.抽奖团.秒杀活动添加到首页或自定义页面:3. 新增DIY标题组件,自定义标题名与链接入口,也可额外开启倒计时显示配合营销组件使用:4. 同城配送新增可配送时间段,与指定时间送达开启设置,适合外卖商家使用:5. 商家版小程序增

(转)我所经历的大数据平台发展史（三）：互联网时代 ? 上篇

编者按:本文是松子(李博源)的大数据平台发展史系列文章的第二篇(共四篇),本系列以独特的视角,比较了非互联网和互联网两个时代以及传统与非传统两个行业.是对数据平台发展的一个回忆,对非互联网.互联网,从数据平台的用户角度.数据架构演进.模型等进行了阐述. 前言,本篇幅将进入大家熟知的互联网时代,数据平台发展史仅是自己经历过由传统数据平台到互联网数据平台发展一些简单回忆,在这一篇章中将引用部分互联网数据平台架构,在这里仅作案例. 我相信很多从传统行业转到互联网时是各种不适应,适应短则几个月,长则一年

(转)我所经历的大数据平台发展史（四）：互联网时代 ? 下篇

编者按:本文是松子(李博源)的大数据平台发展史系列文章的第四篇(共四篇),本系列以独特的视角,比较了非互联网和互联网两个时代以及传统行业与非传统行业.是对数据平台发展的一个回忆,对非互联网.互联网,从数据平台的用户角度.数据架构演进.模型等进行了阐述. 在互联网时代被弱化的数据模型谈起数据模型就不得不提传统数据平台架构发展,我相信很多朋友都晓得传统数据平台的知识,其架构演进简单一句话说“基本上可以分为五个时代.四种架构”,但是到了互联网时代因为大数据快速膨胀与数据源类型多样化特点,从高阶架构上

大数据平台Hive数据迁移至阿里云ODPS平台流程与问题记录

一.背景介绍最近几天,接到公司的一个将当前大数据平台数据全部迁移到阿里云ODPS平台上的任务.而申请的这个ODPS平台是属于政务内网的,因考虑到安全问题当前的大数据平台与阿里云ODPS的网络是不通的,所以不能使用数据采集工作流模板. 然而,考虑到原大数据平台数据量并不是很大,可以通过将原大数据平台数据导出到CSV文件,然后再将CSV文件导入到ODPS平台.在这个过程中踩的坑有点多,所以想写篇文档作为记录. 二.大数据平台Hive数据导出到本地编写export_data.sh脚本如下: #!/

我所经历的大数据平台发展史（一）：非互联网时代 ? 上篇

编者按:本文是松子(李博源)的大数据平台发展史系列文章的第一篇(共四篇),本系列以独特的视角,比较了非互联网和互联网两个时代以及传统与非传统两个行业.是对数据平台发展的一个回忆,对非互联网.互联网,从数据平台的用户角度.数据架构演进.模型等进行了阐述. 前言,这个数据平台发展史仅是自己经历过由传统数据平台到互联网数据平台发展一些简单回忆,文章引用了历史项目 & 平台规划架构,在这里不做更深入描述. 我是从 2000 年开始接触数据仓库,大约 08 年开始进入互联网行业,那时在互联网接触到数据平台

大数据练习数据接口

除了分享和讨论经典的数据挖掘和机器学习的算法,为了大家能更好的了解并实践这些算法,DMC特意为大家搜寻了一些大数据的数据源连接. 由于各个网站对于数据使用都有明确且严格的声明,我们不便在未经各网站许可的情况下私自传播数据,所以这里仅提供各数据源的网址,请大家自行登陆到各网站上提取自己所需的数据,并按各网站的数据使用声明使用数据. 数据源友情链接:? 政府&机构数据美国政府开源数据库:http://www.data.gov/ 英国政府开源数据库:http://data.gov.uk/ 世界银行数

案例分析:大数据平台技术方案及案例(ppt)

大数据平台是为了计算,现今社会所产生的越来越大的数据量,以存储.运算.展现作为目的的平台.大数据技术是指从各种各样类型的数据中,快速获得有价值信息的能力.适用于大数据的技术,包括大规模并行处理(MPP)数据库,数据挖掘电网,分布式文件系统,分布式数据库,云计算平台,互联网,和可扩展的存储系统. ————————————————————— 免责声明:我们致力于保护作者版权,部分内容源于网络公开内容或圈友所提供,无法核实原始出处,如涉及侵权,请直接联系我们删除,抄袭本文至其它微信号者引发的一切纠纷与

大数据平台1.0总结和2.0演化路线

从3月份到现在2个月过去了,整个数据平台从0到1,算是有了一个基本的样子,跌跌撞撞的勉强支撑起运营的一些基本业务,当然这仅仅是开始,下一步还要从零打造自己的UBS系统,想想都兴奋呢!接下来总结下自己这段时间的得失,以及下一阶段的演化目标关于产品架构的原则可以查看这里,我分了两篇来写: https://www.cnblogs.com/buoge/p/9093096.html 目前的架构方式是这样的: 从使用Sqoop 定时从MySQL中同步数据,数据量大只能小水管的去fetch每次5-10W条记

大数据平台的服务内容以及猛犸大数据平台近期的思考【摘录】

猛犸大数据平台经过去年一年的快速发展,已成为公司内多个产品的大数据开发工具的首选,作为一个当初定位为开发门户的这样一个平台网站,以调度管理为核心,将公司内已有的大数据工具进行了整合,提供了可视化的操作界面.统一的用户权限管理机制.洞悉原油开发流程的用户可以在猛犸上找到很熟悉的感觉,DS接入,MR任务的上传与调度控制,HIVE的查询等等.随着用户不断反馈,猛犸也在不断的进化,越来越多的组件涵盖了进来,交互和流程在不断改善.然而目前这样的框架这就是猛犸的终极形态吗?答案自然是否定的,可以说,眼前的猛