CDGA 章节重点冲刺系列-第八章 数据集成和互操作

1. 数据集成和互操作

数据集成和互操作语境关系图

1. 业务驱动因素

数据集成和互操作主要目的是为了对数据移动进行有效管理。

  • 管理数据集成的复杂性以及相关成本是建立数据集成架构的原因
  • 维护管理成本
  • 支持组织遵守数据处理标准和规则的能力也是驱动因素之一

2. 原则

  • 采用企业视角确保未来的可扩展性设计,通过迭代和增量交付实现
  • 平衡本地数据需求与企业数据需求,包括支撑与维护
  • 确保数据集成和互操作设计和活动的可靠性。业务专家应参与数据转换规则的设计和修改,包括持久性和虚拟性

3. 其他概念

1. ELT 和 ELT

  • ETL:抽取、转换、加载。常用于数据仓库。
  • ELT:抽取、加载、转换。常用于数据湖。

2. 时延

时延(Latency)是指从源系统生成数据到目标系统可用该数据的时间差。

  • 批处理
  • 变更数据捕获
  • 准实时和事件驱动
  • 异步
  • 实时,同步
  • 低延迟或流处理

3. 数据剖析

定义的和实际的格式、数据量、数据有效值集合、数据集内部和与外部的关系

4. 数据探索

确定位置、数据评估、生成数据目录在元数据仓中维护

5. 交互模式

中心辐射、点到点、发布订阅