1. 数据质量
1. 业务驱动因素
- 提高组织数据价值和数据利用的机会。
- 降低低质量数据导致的风险和成本。
- 提高组织效率和生产力。
- 保护和提高组织的声誉
2. 原则
- 重要性:根据数据的重要性以及数据不正确时的风险水平来制定改进的优先顺序
- 全生命周期管理
- 预防:重点应放在预防数据错误和降低数据可用性等
- 根因修正:需要对流程和支持它们的系统进行更改,而不仅仅是从表象来理解和解决
- 治理:数据治理活动必须支持高质量数据的开发,数据质量规划活动必须支持和维持受治理的数据环境
- 标准驱动
- 客观测量和透明度:数据质量水平需要得到客观、一致的测量
- 嵌入业务流程:业务流程所有者对通过其流程生成的数据质量负责,他们必须在其流程中实施数据质量标准
- 系统强制执行:系统所有者必须让系统强制执行数据质量要求
- 与服务水平关联:数据质量报告和问题管理应纳入服务水平协议(SLA)
3. 数据质量的维度
数据的某个可测量的特性。
1. Strong-Wang框架
Strong-Wang 框架(1996)侧重于数据消费者对数据的看法,描述了数据质量的4个大类及15个指标:
- 内在数据质量
- 准确性
- 客观性
- 可信度
- 信誉度
- 场景数据质量
- 增值性
- 关联性
- 及时性
- 完整性
- 适量性
- 表达数据质量
- 可解释性
- 易理解性
- 表达一致性
- 简洁性
- 访问数据质量
- 可访问性
- 访问安全性
2. Thomas Redman 维度
将一个数据项定义为 “可表示的三元组”:一个实体属性域与值的集合。他描绘了 3 类共 20 多个维度:
- 数据模型
- 内容:①数据关联性。②获取价值的能力。③定义清晰性
- 详细程度:①特征描述颗粒度。
- 属性域的精准度
- 构成:①自然性:每个属性在现实世界中应该有一个简单的对应物,且每个属性都应承载一个关于实体的单一事实。②可识别性:每个实体都应能与其他实体区分开来。③同一性。④最小必要冗余性。
- 一致性:①模型各组成部分的语义一致性。②跨实体类型属性的结构一致性。
- 应变性:①健壮性。②灵活性。
- 数据值:①准确性。②完备性。③时效性(Currency)。④一致性。
- 数据表达:①适当性。②可解释性。③可移植性。④格式精确性。⑤格式灵活性。⑥表达空值的能力。⑦有效利用存储。⑧数据的物理实例与其格式一致。
3. Larry English 维度
提出两在类别:固有特征和实用特征。
- 固有质量特征:①定义的一致性。②值域的完备性。③有效性或业务规则一致性。④数据源的准确性。⑤反映现实的准确性。⑥精确性。⑦非冗余性。⑧冗余或分布数据的。
- 实用质量特征:①可访问性。②及时性。③语境清晰性。④可用性。⑤多源数据的可整合性。⑥适当性或事实完整性。
4. DAMA UK 维度
- 完备性:存储数据量与潜在数据量的百分比
- 唯一性:在满足对象识别的基础上不应多次记录实体实例(事物)
- 及时性:数据从要求的时间点起代表现实的程度
- 有效性:如数据符合其定义的语法(格式、类型、范围),则数据有效
- 准确性:数据正确描述所描述的“真实世界”对象或事件的程度
- 一致性:比较事物多种表述与定义的差异
4. 数据质量改进生命周期
- 计划(Plan)阶段:数据质量团队评估已知问题的范围、影响和优先级,并评估解决这些问题的备选方案
- 执行(Do)阶段:数据质量团队负责努力解决引起问题的根本原因,并做出对持续监控数据的计划
- 检查(Check)阶段:包括积极监控按要求测量的数据质量
- 处理(Act)阶段:指处理和解决新出现的数据质量问题的活动
5. 数据质量业务规则类型
常见的业务规则类型:
- 定义一致性
- 数值存在和记录完备性:定义数值缺失的情况是否可接受的规则
- 格式符合性
- 值域匹配性
- 范围一致性
- 映射一致性:表示分配给数据元素的值,必须对应于映射到其他等效对应值域中的选择的值
- 一致性规则:指根据这些属性的实际值,在两个(或多个)属性之间关系的条件判定
- 准确性验证
- 唯一性验证
- 及时性验证:表明与数据可访问性和可用性预期相关特征的规则
- 其它类型:可能涉及应用于数据实例集合的聚合函数
6. 数据质量问题的常见原因
- 缺乏领导力导致的问题
- 数据输入过程引起的问题:数据输入接口问题、列表条目放置、字段重载、培训问题、业务流程的变更、业务流程执行混乱
- 数据处理功能引起的问题:有关数据源的错误假设、过时的业务规则、变更的数据结构
- 系统设计引起的问题:未能执行参照完整性、未执行唯一性约束、编码不准确和分歧、数据模型不准确、字段重载、时间数据不匹配、主数据管理薄弱、数据复制
- 解决问题引起的问题
7. 数据剖析
数据剖析(Data Profiling)是一种用于检查数据和评估质量的数据分析形式。
统计信息识别问题的模式:
- 空值数
- 最大/最小值
- 最大/最小长度
- 单个列值的频率分布
- 数据类型和格式
8. 数据质量和数据处理
提升数据质量:
- 数据清理或数据清洗:实施控制以防止数据输入错误、纠正源系统中的数据、改进数据录入的业务流程
- 数据增强:给数据集添加属性以提高其质量和可用性的过程。如时间戳等
- 数据解析和格式化:使用预先确定的规则来解释其内容或值的分析过程
- 数据转换与标准化