flink1.12 + hudi 0.9.0 编译后jar包
2023-10-23 09:29:51 12KB hudi flink hadoop
1
基于最新版本的湖仓一体、流批一体架构方案 hadoop-3.3.4+tez-0.10.2+hive-3.1.3+hbase-2.4.14+atlas-2.2.0+kafka- 2.8.2+ranger-2.3.0+flink-1.15.2+spark-3.3.0+hudi-0.12.1.jar+iceberg-0.14.1.jar+streamx
2022-12-21 19:23:13 51B hadoop hudi iceberg flink
1
重磅!Vertica集成Apache Hudi指南.doc
2022-07-11 14:09:00 720KB 技术资料
hudi-hadoop-mr-bundle-0.11.0.jar 配合文档
2022-06-28 19:05:50 35.47MB hudi-hadoop-mr-b
1
hudi-flink1.14-bundle_2.12-0.11.0.jar
2022-06-28 19:05:50 45.25MB flink
1
配合文档
2022-06-28 19:04:19 55.46MB Hudi
1
大多数大数据企业在构建数仓时采用Lambda架构,一条离线数仓链路,一条实时数仓链路。一些实时业务多的公司构建数仓时采用Kappa架构,但是也避免不了离线处理一些数据,所以一些公司也采用Kappa架构+Lambda架构方式构建数仓。以上不同的架构都有各自的优点及缺点,这里不再赘述。批数据处理与流式数据处理的不同效率决定了针对两类数据采用不同的架构进行分析处理,未来数据仓库的发展也终将走向批数据和流数据使用同一套架构处理,同时也要求批数据及流数据存储上也需要统一,这就所说的批流一体,那么使用什么技术可以既能满足批数据海量存储分析又能满足实时数据存储的效率高、支持数据更新删除?数据湖技术应运而生。Hudi 就是典型的数据湖技术,支持批数据和流式数据的存储,同时还支持高效的OLAP分析查询。 这份资料将会带领大家学习为什么要用数据湖技术、Hudi Timeline、Hudi文件格式及索引、Hudi表类型、Hudi与Spark、Flink框架整合等知识,如果你在学习、工作中针对批流一体数据处理场景正不知选择何种技术,在工作中使用到数据湖技术,那么下载这份资料绝对没错,可以快速学习真正使用数据湖
2022-06-04 09:07:16 60.19MB 数据湖 大数据技术
hudi-flink.jar
2022-05-20 22:04:35 45.13MB jar flink java 大数据
1
HUDI数据湖,俩个核心两点: 1、采用读时模式设计,支持动态schema,动态表结构变更。(对比写时模式) 2、标准化统一和解决了大规模的数据存储问题。 3、高容错的任务调度管理策略,不用担心job失败重跑,也不用担心job重跑的效率问题。
2022-05-13 19:07:38 29.78MB flink 综合资源 大数据 big
1