[rank_math_breadcrumb]

数据质量维度集 – Thomas Redman 框架

Thomas Redman 基于数据结构的数据质量维度,将一个数据项定义为“科表示的三元组”:一个实体属性域和值的集合。维度可以与数据的任何组成部分相关联:模型(实体和属性)及其值。Redman 还定义了一类用于记录数据项规则的表达维度。在这三大类别中(数据模型、数据值、数据表达),他一共描述了 20 多个维度,其中包括以下内容:
  1. 数据模型
    1. 内容。
    2. 数据关联性。
    3. 获取价值的能力。
    4. 定义清晰性。
    5. 详细程度。
    6. 特征描述颗粒度。
  2. 属性域的精准度
    1. 构成。
      1. 自然性。每个属性在现实世界中应该有一个简单的对应物,且每个属性都应承载一个关于实体的单一事实。
      2. 可识别性。每个实体都应能与其他实体区分开来。
      3. 同一性。
      4. 最小必要冗余性。
      5. 一致性。
        1. 模型各组成部分的语义一致性。
        2. 跨实体类型属性的结构一致性。
      6. 应变性。
        1. 健壮性。
        2. 灵活性。
        3. 数据值。
        4. 准确性。
        5. 完备性。
        6. 时效性。
        7. 一致性
    2. 数据表达。
      1. 适当性。
      2. 可解释性。
      3. 可移植性。
      4. 格式精确性。
      5. 格式灵活性。
      6. 表达空值的能力。
      7. 有效利用存储。
      8. 数据的物理实例与其格式一致。
Redman 认识到,实体、值和表达的一致性可以通过约束来理解,不同类型的一致性受不同类型的约束。
KAMI
KAMI
数据挖掘研究员,专注分享数据领域的技术和业务,以及逻辑、思维和方法论

发表回复

文章结构