定时从一个数据库表中的数据存储到另外一个数据库中的表，而且怎么处理重复的数据？

表结构肯定是不能破坏，但是临时表如果是自己的数据库还行，问题是这个Oracle数据库是客户的数据库呢，你不能在他的数据库做任何多余的操作吧？还有别的更好的方法吗？

这个真的是比较困难。

首先，你要从客户机oracle取数据，因为这1分钟间隔之内不知道用户机新增加了哪些数据（大部分情况下是用户使用别的系统插入数据，而你又没有这个系统的程序接口），所以你只能全部取出来，依靠自己的程序去同步数据。

我见过的做法是：

假设用户机是A（Oracle），你的java应用部署在B机器上，sybase数据库在C机器上。

（1）B机器上安装一个内存数据库（有一个开源的H2内存数据库）
（2）获取A（Oracle）的全部数据，如果B机器的内存不大，那么分批获取也可以，与B机器上的内存数据库中的临时储存表Temp做hash join，得到增量数据。
（3）把增量数据同步到B机器的内存数据库和C机器的sybase上。

这里，说明一下，需要同步的表是每隔一段时间会重新建立的，比如天表、月表等，所以一个表不会超级大，达到内存无法消化的地步，所以这个内存数据库的临时表也是有一定的容量的。

可能还有更好的方式，不过，中间表或中间文件记录应该还是要的。

时间： 2025-01-01 23:24:26

Hive数据导入——数据存储在Hadoop分布式文件系统中，往Hive表里面导入数据只是简单的将数据移动到表所在的目录中！