大多数大数据企业在构建数仓时采用Lambda架构,一条离线数仓链路,一条实时数仓链路。一些实时业务多的公司构建数仓时采用Kappa架构,但是也避免不了离线处理一些数据,所以一些公司也采用Kappa架构+Lambda架构方式构建数仓。以上不同的架构都有各自的优点及缺点,这里不再赘述。批数据处理与流式数据处理的不同效率决定了针对两类数据采用不同的架构进行分析处理,未来数据仓库的发展也终将走向批数据和流数据使用同一套架构处理,同时也要求批数据及流数据存储上也需要统一,这就所说的批流一体,那么使用什么技术可以既能满足批数据海量存储分析又能满足实时数据存储的效率高、支持数据更新删除?数据湖技术应运而生。Hudi 就是典型的数据湖技术,支持批数据和流式数据的存储,同时还支持高效的OLAP分析查询。 这份资料将会带领大家学习为什么要用数据湖技术、Hudi Timeline、Hudi文件格式及索引、Hudi表类型、Hudi与Spark、Flink框架整合等知识,如果你在学习、工作中针对批流一体数据处理场景正不知选择何种技术,在工作中使用到数据湖技术,那么下载这份资料绝对没错,可以快速学习真正使用数据湖
2022-06-04 09:07:16 60.19MB 数据湖 大数据技术
企业发展到一定程度时常会出现数据孤岛问题,数据中台产品能打通和连接企业内部各部门的数据,从而做到统一调用,进行更深层次的分析和应用。以数据湖为基础,打造智能探索,智能分析,智能工厂三大核心技术服务,云数据中台帮助企业实现数字化转型。 基于数据湖的企业中台主要包括以下几大部分: 数据资产管理、数据共享、数据分析。 基于数据湖的资产管理平台将业务数据,社交数据,外部数据等多数据来源统一管理,构成企业级数据中心。 利用数据移动及大数据平台将个人数据进行整合,清洗,分析,形成人员的统一标签数据。 依赖于画像标签体系,基于数据湖的资产运营体系将数据发布共享,为企业各部门提供人才发现,绩效评分,精准营销等应用。
2022-05-30 12:04:07 1.48MB 数据中台 数据湖 数字化转型 企业管理
数据湖建设解决方案-2022-39页.pptx
2022-05-15 12:03:22 5.07MB 数据湖
HUDI数据湖,俩个核心两点: 1、采用读时模式设计,支持动态schema,动态表结构变更。(对比写时模式) 2、标准化统一和解决了大规模的数据存储问题。 3、高容错的任务调度管理策略,不用担心job失败重跑,也不用担心job重跑的效率问题。
2022-05-13 19:07:38 29.78MB flink 综合资源 大数据 big
1
阿里巴巴技术专家分享基于Flink+Iceberg构建企业级实时数据湖
2022-04-29 18:07:38 2.84MB 数据湖 Flink Iceberg
数据湖治理API文档
2022-04-15 13:14:59 3.91MB 数据治理 数据库 DGC
1
数据湖建设解决方案-2022
2022-04-15 13:11:20 4.95MB 数据湖
借助5G、云计算、大数据、物联网和人工智能等技术,重点解决战略闭环、业务运营、管理支撑等业务系统间数据不通和数据孤岛等问题,破解数据“汇”、“存”、“管”、“用”、“营”等难题。通过建立集团统一的数据湖及应用平台,提供数据汇聚、存储、治理、分析、服务、共享、应用和运营能力,夯实企业大数据智能化、经营管理智能化、业务作业智能化、医疗健康行业运营智能化的“4智”应用基础支撑能力,构建跨业务、跨部门和跨层级的融合应用场景,形成企业“数智化”运行的智能中枢,实现经营状态的实时监测,经营数据的辅助决策、指标的智能预警预测,关键问题的智慧决策,打造集团运行管理闭环与智慧化决策能力 。
2022-04-06 19:05:56 3.24MB 人工智能 big data 云计算
腾讯数据湖的元数据治理
2022-04-06 15:04:44 3.88MB 大数据 数据湖 腾讯
数据湖分析之Upsert详解.pdf
2022-04-06 02:53:37 1.41MB 安全 big data 大数据