DAMA数据质量管理规范和实践
上海奥腾科技 2025年11月07日

1.DAMA数据质量管理规范

  在DAMA(数据管理协会)的数据管理指南中,数据质量是核心议题之一。数据质量维度为定义数据质量要求提供了一组词汇,通过这些维度可以评估初始数据质量和持续改进的成效。以下是关于数据质量维度中准确性、完备性、一致性、完整性、合理性、及时性、唯一性/数据去重、有效性的详细解释:

  1)准确性(Accuracy):指数据值与设定为准确的值之间的一致程度,或与可接受程度之间的差异。在数据质量评价维度中是第一位的。准确性是指数据正确表示“真实”实体的程度。准确是很难描述的,大多数准确性的测量依赖于与已验证为准确的数据源的比较,如来自可靠数据源的记录或系统(如邓白氏征信所的参考数据)

  2)完备性(Completeness):指存储数据量与潜在数据量的百分比,是数据质量的重要特征之一。它要求数据应尽可能全面,覆盖所有相关方面,不存在重要信息的遗漏。完备性可以在数据集、记录或列级别进行测量。数据集是否包含所有列记录?记录是否正确填写?(不同状态的记录可能对完备性有不同的期望)是否将列/属性填充到预期的级别?(有些列是强制性的,可选列仅在特定条件下填充)将完备性规则分配给具有不同约束级别的数据集:需要值的强制属性、具有条件值和可选值的数据元素,以及不适用的属性值。数据集级别的测量可能需要与记录源进行比较,也可能基于该数据集的历史水平。

  3)一致性(Consistency):可以指确保数据值在数据集内和数据集之间表达的相符程度。它也可以表示系统之间或不同时间的数据集大小和组成的一致程度。一致性可以在同一记录中的一组属性值和另一组属性值(记录级一致性)或不同记录内的一组属性值和另一组属性集(跨记录一致性)之间定义,也可以在不同记录中的同一组属性值之间或在同一记录不同时间点(时间一致性)的一组属性值之间定义。

  4)完整性(Integrity):指数据是否完整、不缺失,也是数据质量的重要特征之一。数据的完整性取决于数据的来源、采集、处理、存储和使用等方面的因素。如果数据采集过程中丢失了一部分数据,那么数据就不完整,数据的完整性就会受到影响。主要包括实体缺失、属性缺失、记录缺失和字段值缺失四个方面。

  5)合理性(Reasonability):主要关注数据的格式、类型、值域和业务规则是否合理有效。它要求数据应符合业务逻辑和常识,避免出现异常或不合理的数据值。由于业务端并不会把所有用户的交互输入操作进行规则验证,对于一些异常操作,会导致数据出现异常的情况。因此,需要设定数据合理范围,及时抓出这些问题。合理性也指数据模式符合预期的程度。例如,基于对该区域的顾客的了解,在该地区的销售分布是否有意义。

  6)及时性(Timeliness):指数据从要求的时间点起代表现实的程度,即数据应能够反映最新的实际情况。数据的时效性取决于数据的来源、采集、处理、存储和使用等方面的因素。例如,如果数据的来源是实时的传感器,那么这些数据的时效性就非常重要。

  7)唯一性/数据去重(Uniqueness/Deduplication):指在满足对象识别的基础上不应多次记录实体实例(事物),即数据应具有唯一性标识,避免重复记录。数据主键重复会导致数据统计异常的情况。

  8)有效性(Validity):是指数据值与定义的值域一致。值域可以被定义为参考表中的一组有效值或一个有效的范围,或者能够通过规则确定的值。在定义值域时,必须考虑期望值的数据类型、格式和精度。数据也可能只在特定时间内有效,如从RFID(射频识别)或某些科学数据集中生成的数据。数据有效性的检验,可以通过将其与域约束进行比较来进行。

  质检规则通常会涉及到单列、跨列、单行、跨行、单表、跨表。如下是集中特性的举例:

18-图片1.png

  图-质量维度与行列关系

2.我们的质检规则有哪些?

  我们将DAMA质检规则分解为:单表结构检查(、单表字段内容检查、单表条件检查、多表/全库结构检查、多表动态检查、实时数据检查。这样能满足通用型数据检查以及业务条件检查。

  以下是具体规则表格,根据用户使用的业务角度展开,划分为单表检查、多表检查、实时数据检查。

2.1单表结构检查

18-图片2.png

2.2单表字段内容检查

18-图片33.png

2.3单表条件检查

18-图片4.png

2.4多表/全库结构检查

18-图片5.png

2.5多表动态检查

18-图片6.png

2.6实时数据检查

18-图片7.png

2.7业务检查举例

18图片-88.png

  手机端请关注公众号:数据集成服务

  加入讨论群:

加入群聊立牌