CDGA 章节重点冲刺系列-第十一章 数据仓库和商务智能

1. 数据仓库和商务智能

数据仓库和商务智能语境关系图

1. 业务驱动因素

运营支持职能、合规需求和商务智能活动

2. 指导原则

  • 聚焦业务目标:确保数据仓库用于组织最优先级的业务并解决业务问题
  • 以终为始:让业务优先级和最终交付的数据范围驱动数据仓库内容的创建
  • 全局性的思考和设计,局部性的行动和建设
  • 总结并持续优化,而不是一开始就这样做
  • 提升透明度和自助服务
  • 与数据仓库一起建立元数据
  • 协同:与其他数据活动协作,尤其是数据治理、数据质量和元数据管理活动
  • 不要千篇一律

3. 数据仓库建设

数据仓库建设指的是数据仓库中数据的抽取、清洗、转换、控制、加载等操作过程。

1. 数据仓库建设的方法

有两种方法企业信息工厂和多维数据仓库,方法不同,核心理念相似:

  • 数据仓库存储的数据来自其他系统
  • 存储行为包括以提升数据价值的方式整合数据
  • 数据仓库便于数据被访问和分析使用
  • 组织建设数据仓库,因为他们需要让授权的利益相关方访问到可靠的、集成的数据
  • 数据仓库数据建设有很多目的,涵盖工作流支持、运营管理和预测分析
1. 企业信息工厂

Bill Inmon 的企业信息工厂(Corporate Information Factory,CIF),描述数仓组成:面向主题的、整合的、随时间变化的、包含汇总和明细的、稳定的历史数据集合。

组成:

  • 应用程序
  • 数据暂存区
  • 集成和转换
  • 操作型数据存储(ODS)
  • 数据集市
  • 操作型数据集市(OpDM)
  • 数据仓库
  • 运营报告
  • 参考数据、主数据和外部数据

企业信息工厂

2. 多维数据仓库

Kimball 的多维数据仓库将数据仓库简单地定义为,专为查询和分析而构建的事务数据的副本。

方便理解和使用、支持更优的查询性能、由维度和事实表组成、常见模型有星型和雪花型。

  • 业务源系统
  • 数据暂存区
  • 数据展示区
  • 数据访问工具

多维数据仓库

2. CIF 方法数据仓库和业务系统的区别

  • 面向主题的:数据仓库是基于主要业务实体组织的,而不关注功能或应用
  • 整合的:数据仓库中的数据是统一的、内聚的。保持相同的关键结构,结构的编码和解码、数据定义和命名规范
  • 随时间变化的:数据仓库存储的是某个时间段的数据
  • 稳定的:在数据仓库中,数据记录不会像在业务系统里那样频繁更新
  • 聚合数据和明细数据:数据仓库中的数据包括原子的交易明细,也包括汇总后的数据
  • 历史的:业务系统的重心是当前的数据,而数据仓库还包括历史数据,通常要消耗很大的存储空间

4. 数据仓库架构组件

  • 源系统:业务系统和外部数据
  • 数据集成:抽取、转换和加载
  • 数据存储区域:包含多个不同用途的存储区域:
    • 暂存区:介于原始数据源和集中式数据存储库之间的中间数据存储区域
    • 参考数据和主数据一致性维度
    • 中央数据仓库:数据结构包括业务主键和代理主键关系、索引和外键、CDC
    • 操作型数据存储(ODS):操作型数据存储包含一个时间窗口的数据而不是全部历史记录,因此可以比数据仓库有更快地刷新频率
    • 数据集市:面向特定主题域、 单个部门或单个业务流程
    • 数据立方体 Cubes:支持在线分析处理系统 OLAP

5. 加载处理的方式

涉及两种主要的数据集成处理类型:历史数据加载和持续不断的数据更新:

  • 历史数据:全量加载
  • 批量变更数据捕获:数据库日志、时间戳增量加载
  • 准实时和实时数据加载:
    • 涓流式加载(源端累积):不同于夜间窗口批量加载,它会以更频繁的节奏或阈值进行批量加载,即微批处理
    • 消息传送(总线累积):极小数据报发到消息总线,目标系统订阅线
    • 流式传送(目标端累积):目标系统使用缓冲区或队列方式收集数据, 并按顺序处理

6. 其他概念

1. OLAP

在线分析处理(OLAP)是一种为多维分析查询提供快速性能的方法。有以下 3 种实现:

  • ROLAP(关系型联机分析处理):通过在关系数据库的二维表中使用多维技术来支持 OLAP。星型架构是 ROLAP 环境中常用的数据库设计技术
  • MOLAP(多维矩阵型联机分析处理):通过使用专门的多维数据库技术支持 OLAP
  • HOLAP(混合型联机分析处理):两者结合

7. 血缘关系的用途

  • 调查数据问题的根本原因
  • 对系统变更或数据问题进行影响分析
  • 根据数据来源确定数据的可靠性