Apache Hudi 0.5.1版本重磅发布

历经大约3个月时间,Apache Hudi 社区终于发布了0.5.1版本,这是Apache Hudi发布的第二个Apache版本,该版本中一些关键点如下

  • 版本升级

    • 将Spark版本从2.1.0升级到2.4.4
    • 将Avro版本从1.7.7升级到1.8.2
    • 将Parquet版本从1.8.1升级到1.10.1
    • 将Kafka版本从0.8.2.1升级到2.0.0,这是由于将spark-streaming-kafka artifact从0.8_2.11升级到0.10_2.11/2.12间接升级

重要:Hudi 0.5.1版本需要将spark的版本升级到2.4+

  • Hudi现在支持Scala 2.11和2.12,可以参考Scala 2.12构建来使用Scala 2.12来构建Hudi,另外, hudi-spark, hudi-utilities, hudi-spark-bundle and hudi-utilities-bundle包名现已经对应变更为 hudi-spark_{scala_version}, hudi-spark_{scala_version}, hudi-utilities_{scala_version}, hudi-spark-bundle_{scala_version}和 hudi-utilities-bundle_{scala_version}. 注意这里的scala_version为2.11或2.12。
  • 在0.5.1版本中,对于timeline元数据的操作不再使用重命名方式,这个特性在创建Hudi表时默认是打开的。对于已存在的表,这个特性默认是关闭的,在已存在表开启这个特性之前,请参考这部分(https://hudi.apache.org/docs/deployment.html#upgrading)。若开启新的Hudi timeline布局方式(layout),即避免重命名,可设置写配置项hoodie.timeline.layout.version=1。当然,你也可以在CLI中使用repair overwrite-hoodie-props命令来添加hoodie.timeline.layout.version=1至hoodie.properties文件。注意,无论使用哪种方式,在升级Writer之前请先升级Hudi Reader(查询引擎)版本至0.5.1版本。
  • CLI支持repair overwrite-hoodie-props来指定文件来重写表的hoodie.properties文件,可以使用此命令来的更新表名或者使用新的timeline布局方式。注意当写hoodie.properties文件时(毫秒),一些查询将会暂时失败,失败后重新运行即可。
  • DeltaStreamer用来指定表类型的参数从--storage-type变更为了--table-type,可以参考wiki来了解更多的最新变化的术语。
  • 配置Kafka Reset Offset策略的值变化了。枚举值从LARGEST变更为LATEST,SMALLEST变更为EARLIEST,对应DeltaStreamer中的配置项为auto.offset.reset
  • 当使用spark-shell来了解Hudi时,需要提供额外的--packages org.apache.spark:spark-avro_2.11:2.4.4,可以参考quickstart了解更多细节。
  • Key generator(键生成器)移动到了单独的包下org.apache.hudi.keygen,如果你使用重载键生成器类(对应配置项:hoodie.datasource.write.keygenerator.class),请确保类的全路径名也对应进行变更。
  • Hive同步工具将会为MOR注册带有_ro后缀的RO表,所以查询也请带_ro后缀,你可以使用--skip-ro-suffix配置项来保持旧的表名,即同步时不添加_ro后缀。
  • 0.5.1版本中,供presto/hive查询引擎使用的hudi-hadoop-mr-bundle包shaded了avro包,以便支持real time queries(实时查询)。Hudi支持可插拔的记录合并逻辑,用户只需自定义实现HoodieRecordPayload。如果你使用这个特性,你需要在你的代码中relocate avro依赖,这样可以确保你代码的行为和Hudi保持一致,你可以使用如下方式来relocation。
    <relocation>
      <pattern>org.apache.avro.</pattern>
      <shadedPattern>org.apache.hudi.org.apache.avro.</shadedPattern>
    </relocation>
  • DeltaStreamer更好的支持Delete,可参考blog了解更多细节。
  • DeltaStreamer支持AWS Database Migration Service(DMS) ,可参考blog了解更多细节。
  • 支持DynamicBloomFilter(动态布隆过滤器),默认是关闭的,可以使用索引配置项hoodie.bloom.index.filter.type=DYNAMIC_V0来开启。
  • HDFSParquetImporter支持bulkinsert,可配置--commandbulkinsert
  • 支持AWS WASB和 WASBS云存储。

原文地址:https://www.cnblogs.com/apachehudi/p/12247396.html

时间: 2024-07-29 12:28:08

Apache Hudi 0.5.1版本重磅发布的相关文章

千寻浏览器 1.0 Beta 1版本发布内测

千寻浏览器--又一款新生浏览器今天进入各位浏览迷的视野.千寻浏览器基于IE内核,据传是由百度浏览器的上海团队操刀,在功能定位上,与目前的QQ浏览器有些相似. 千寻来自官方的解释:寻,追寻,探索,又是古代度量单位,八尺为一寻. 千寻,形容极高或极长,亦指勇于探索,不断发现的精神. 当然,各位浏览迷对他也有自己的解释,说是取自百度"众里寻他千百度"中的千寻.各位感兴趣的浏览迷可以下载体验. 版本日志: 超轻超快:1秒安装,半秒冷启,3倍加速5M超小安装包,并独享百度云加速,下载速度提升三倍

【转】MongoDB 3.0 正式版本即将发布,强力推荐

MongoDB 今天宣布3.0 正式版本即将发布.这标志着 MongoDB 数据库进入了一个全新的发展阶段,提供强大.灵活而且易于管理的数据库管理系统. MongoDB 3.0 在性能和伸缩性方面都有非常巨大的提升,通过在存储层的大幅改进实现.内建 WiredTiger 存储引擎,这是一项难以置信的技术实现,提供无门闩.非堵塞算法来利用先进的硬件平台(如大容量芯片缓存和线程化架构)来提升性能.通过 WiredTiger ,MongoDB 3.0 实现了文档级别的并发控制,因此大幅提升了大并发下的

开源企业IM-免费企业即时通讯-ENTBOOST 0.8 Linux版本发布

ENTBOOST 0.8 Linux(点击下载)版本发布,更新内容:1. PC端群组聊天,增加发送临时群组文件功能:部分界面完善,和聊天BUG修复:2. 安卓Android发布第二版本APP,第三版本Android SDK,增加部分功能接口:3. 苹果IOS发布第二版本IOS SDK,增加支持发送和接收表情.图片.语音,和群组聊天等功能:4.增加企业组织结构数据同步REST接口,服务端部分BUG修正: 7/29(明天)发布0.8 Windows版本,敬请关注! ENTBOOST是跨平台.跨应用的

RDIFramework.NET平台代码生成器V3.0版本全新发布-更新于20160518(提供下载)

RDIFramework.NET代码生成器V3.0版本修改了针对3.0版本的框架部分做了大量的调整,同时支持生成Web部分的UI代码(WebForm,MVC),基础的工作交给工具,助力企业快速开发,真正提升了开发速度. RDIFramework.NET框架做为信息化系统快速开发.整合的框架,其目的一至是给用户和开发者提供最佳的.Net框架部署方案.在我们日常开发工作中,有很多提高开发效率的办法,如:尽量创建可重用的代码.加强设计模式与最佳实践.提供通用的功能.提供开发基础组件.使用快速开发平台等

开源企业IM-免费企业即时通讯-ENTBOOST 0.8 Windows版本发布

ENTBOOST 0.8 Windows(点击下载)版本发布,更新内容:1. PC端群组聊天,增加发送临时群组文件功能:部分界面完善,和聊天BUG修复:2. 安卓Android发布第二版本APP,第三版本Android SDK,增加部分功能接口:3. 苹果IOS发布第二版本IOS SDK,增加支持发送和接收表情.图片.语音,和群组聊天等功能:4.增加企业组织结构数据同步REST接口,服务端部分BUG修正: 下一版本发布时间,8月11日,敬请关注! ENTBOOST是跨平台.跨应用的实时通讯平台:

微软即将发布 TypeScript 2.0:候选版本已放出

微软推出TypeScript编程语言已有差不多4年时间,不过该公司正准备发布第二个大版本.TypeScript 2.0的开发似乎已近完成,因为该公司已经开放了候选发布(RC)版本的下载.在发行说明中,其主要提到了三方面的增强,分别是——(1)Tagged unions:(2)更多Literal字体:(3)全局.包含.例外. 更多微软即将发布 TypeScript 2.0:候选版本已放出,请访问勤快学资讯http://qkxue.net/info/ 开发者们可以通过“npm install -g

Spring Boot 2.0(一):【重磅】Spring Boot 2.0权威发布

就在昨天Spring Boot2.0.0.RELEASE正式发布,今天早上在发布Spring Boot2.0的时候还出现一个小插曲,将Spring Boot2.0同步到Maven仓库的时候出现了错误,然后Spring Boot官方又赶紧把 GitHub 上发布的 v2.0.0.RELEASE 版本进行了撤回.到了下午将问题修复后,又重新进行了上传,至此Spring Boot2.0正式推出! 要知道这是Spring Boot1.0发布4年之后第一次重大修订,因此有多的新功能和特性值得大家期待!在S

Apache Mahout 0.9、10.1、11. CardinalityException: Required cardinality 60 but got 29

我们可以使用Apache Mahout来快速创建高效扩展性又好的机器学习应用.Mahout结合了诸如H2O算法.Scala.Spark和Hadoop MapReduce等模块,为开发人员提供了一个构建可扩展算法的环境.现在最新的版本是去年11月6日发布的0.11.1版本. Apache Mahout支持一个叫做Samsara的数学环境,用户可以在Samsara中使用它提供的常见算法来开发自己的数学解决方案.Samsara对于线性代数.数据结构和统计操作都有着很好的支持,而且可以通过Scala的M

【甘道夫】HBase(0.96以上版本)过滤器Filter详解及实例代码

说明: 本文参考官方Ref Guide,Developer API和众多博客,并结合实测代码编写,详细总结HBase的Filter功能,并附上每类Filter的相应代码实现. 本文尽量遵从Ref Guide中"9.4. Client Request Filters"的行文顺序,便于读者对比查看,但内容比官方文档更加详实. 欢迎转载,请注明来源: http://blog.csdn.net/u010967382/article/details/37653177 目录: 引言 -- 参数基础