Oswald Regular
OpenSans Regular
数据质量

这是重中之重。数据质量问题可能对公司的盈利造成重大影响。数据错误可能导致无用功、错失商业良机。随着数据在企业内部的流动,数据质量问题逐渐积累,波及范围和影响力不断扩大。最坏的情况下,可能导致公司高管做出错误结论,最终导致错误的业务决策,这是相当严重的后果。虽然数据质量在的重要性不容置疑,大多数公司却没有度量和缓解数据质量问题的正式数据质量计划,甚至根本没有意识到自身存在数据质量问题。

制定企业数据质量 (DQ) 计划能从根本上解决问题。企业 DQ 计划的功能在本质上超越了任何单一封闭式解决方案,通盘考虑的整体模式触点深入整个企业,并跨一系列不同技术实施。DQ 应作为数据处理管道不可分割的一部分,而非仅局限于脱机、回溯性分析。整理客户名称和地址信息并非 DQ 的工作。企业所有信息的一致性及其表现形式才是 DQ 的重大责任所在。

如果用于 DQ 的技术同时也为数据处理管道的一部分,则必须具有应用实施级别的可靠性和稳定性。这些技术需要处理复杂的遗留数据、实时交易数据以及持续保持高位的处理量。无法满足所有这些要求的方法最终将被转移到脱机部署,很少能达到预期效果。对于专门处理特定数据类型或只能用于有限场合的专用小型 DQ 工具,通常会以这种情况收场。

Ab Initio 的数据质量方法是一种端到端的方法,在业界因此而鹤立鸡群。由于 Ab Initio® Co>Operating System® 是一种完整的应用程序开发和执行环境,Ab Initio 的数据质量方法因此适用于能够部署 Co>Operating System 的所有场合。在实际实施中,几乎涵盖任何运行和分析环境。Co>Operating System 本身能够原生处理复杂的历史数据,在异构服务器之间分布运行,性能极高且完全可扩展,还能实现高度复杂的逻辑。(单击 Co>Operating System 了解详细信息。)

Ab Initio 端到端数据质量方法的设计模式秉承 Ab Initio 无缝结合技术,将 Co>Operating System、Enterprise Meta>Environment® (EME®)、Business Rules Environment (BRE®) 和 Data Profiler 集成一体。采用 Ab Initio 方法,客户可以实施检测、补救、报告和警告等一整套数据质量计划。

架构概述

数据质量无法做到一刀切,拥有大量遗留系统的企业巨头无法使用统一规模的数据质量解决方案。因此,Ab Initio 提供一系列强大的构建模块,供用户各取所需,定制适当规模的数据质量解决方案,以满足任何形式的特定需求。对于刚刚开始部署数据质量计划的新用户,Ab Initio 提供参考实施方案,客户可在此基础上加建。而对于拥有各种不同需求或已构建部分数据质量计划的用户,Ab Initio 的 DQ 构建模块可按需插入现有体系结构。

典型数据质量实施过程的第一步是使用 Co>Operating System 构建强大、可重复使用的 DQ 处理组件,如下所示:

通过 Co>Operating System,组件能够涵盖整个应用。这种可重复使用的特定 DQ 进程组件本身就是一种应用程序,包含以下内容:

  • 一个能够检测数据质量问题并可能予以纠正的子系统。Co>Operating System 是缺陷检测的基础。用户可使用 BRE 在友好的分析界面指定验证规则,也可将 Data Profiler 集成到流程,用于趋势分析和详细问题检测。
  • 一个数据质量报告系统。EME 包括内置数据质量报告功能,集成其余企业元数据、数据质量指标和错误计数以及数据剖析结果。用户利用自由报告基础设施扩展 EME 架构,存储额外的数据质量信息,从而增加基础 EME 功能。
  • 一个问题报告数据库。存在数据质量问题的记录将被记录在数据库或文件中,以便在完整数据质量工作流中检查这些记录。Ab Initio 提供了存储、检索和查看这些记录的技术,用户也可以自行选择其他满足需求的数据存储技术。

DQ 处理组件通常作为现有应用程序的一部分运行,如果应用程序采用 Ab Initio 技术构建而成,可轻松插入 DQ 组件。对于没有使用 Ab Initio 技术构建的应用程序,则须明确调用 DQ 处理组件。此外,DQ 组件也可作为直接提供数据的独立作业加以实施。下面列举了独立部署和与现有应用程序相集成两种部署方案:

数据质量处理工作流

下图展示了一个完整数据质量检测工作流的示例。每个 DQ 部署方案均根据用户的特定需求量身定制,这一特性具有主要意义。

如先前所述,此 DQ 进程A 的输入可以是任何来源的任何数据类型。输入可以是平面文件、数据库表、消息队列或是 Web 服务中的交易数据,也可以是通过 Ab Initio 或其他技术实施其他进程所产生的输出。由于 DQ 进程运行于 Co>Operating System 之上,因此这些数据可为 Co>Operating System 能够处理的任何数据:复杂的遗留]数据、层次化交易数据、全球通用数据等均可。

DQ 进程 B 的输出也可以是进入任何目标的任何类型的数据。

第一步向数据应用验证规则 1。可对单个字段、整个记录或整个数据集运行规则验证。由于每条记录可能存在一个或多个问题,逐条记录 E 模式中,验证规则可能产生一组 DQ 问题。这些问题的严重性及针对措施将在进程下游确定。

接下来,向数据应用清理规则 2,其输出为 DQ 进程 B 的结果。用户可使用内置的 Ab Initio 清理规则,也可通过 Co>Operating System 自行构建规则。通过 BRE,客户可轻松输入验证和清理规则,而且利用了 Co>Operating System 完整的数据处理功能,因而对规则的复杂性没有任何限制。

无法清理的记录成为问题归档 4 的输出。这些问题记录通常以人工方式解决。

每条记录的问题列表 E 还可在分析 3 之后生成报告和警告 5。由于进程通过 Co>Operating System 使用标准 Ab Initio 图形构建而成,因此几乎可以完成任何类型的报告和处理。Ab Initio 的标准 DQ 方法包括:

  • 计算数据质量指标,例如完整性、准确性、一致性和稳定性
  • 确定各字段的频率分布
  • 生成相关错误代码和值的聚合总数
  • 以上所有项目的当前值与历史值比较
  • 当前度量值与旧值之间存在严重偏差时,发出通知

以上收集的所有信息均存储在 Ab Initio EME,供监控和未来参考之用。所有 DQ 信息都可与所有其他元数据(包括存储在 EME 的参考数据)整合。

与这些步骤相关的计算可能消耗大量 CPU 资源,但 Co>Operating System 能够在多个 CPU 之间、甚至在多个服务器上分布工作负载,使得数据质量“始终”为处理管道的一部分。

如前所述,Ab Initio 的数据质量度量方法选项丰富,可对这些选项进行自定义和配置,满足不同用户的需求。数据处理、结果计算以及其间的所有步骤均通过 Ab Initio Co>Operating System 实现的。这也就意味着,数据质量检测几乎可在任何平台(Unix、Windows、Linux、大型机 z/OS)之上运行,适用于任何类型的数据,仍然能提供高强的性能。需要处理大量数据时,整个数据质量检测进程可并行运行,从而最大程度降低延迟。

下面举例说明创建验证规则和生成数据质量结果报告的界面,这些界面非常便于分析人员使用。

验证规则

大部分数据质量问题可通过在源数据集应用验证规则完成检测,凭借 Ab Initio 的数据质量设计模式,使用 Ab Initio Business Rules Environment(BRE)可以“一次验证一条记录”的方式定义验证规则,使非技术型用户、领域专家和业务分析人员能够使用类似电子表格的界面创建和测试验证规则。

使用 BRE 定义验证规则有两种方法。大多数情况下,用户通过填写简单的电子表格(验证网格)来验证规则,字段名称位于左侧下方,验证测试位于顶部:

在这种界面,用户可轻而易举地将某些验证测试指定应用于数据集的特定字段或列。BRE 还包括大量内置的验证测试(null、空白、值范围、数据格式、域成员关系等)。但是,通过 Ab Initio 数据操作语言,开发人员可自定义应用于各字段的验证测试,然后在 BRE 使用。通过 Ab Initio 数据操作语言,开发人员可自定义应用于各字段的验证测试,然后在 BRE 使用。

对于更为复杂的验证规则,BRE 允许定义“表格形式的规则”。这些复杂的验证规则可处理一条记录内多个输入字段,以确定是否存在数据质量问题。每项规则可产生一个错误和处置代码,同为纠错过程所用。

通过 BRE, 领域专家可从同一用户界面设计、输入和测试验证规则,通过测试功能以交互方式查看各输入由哪些规则触发,从而轻松确保规则按预期运行。

以下屏幕截图显示了测试过程中的验证规则。BRE 显示每项验证测试的触发次数,以及每条测试记录的详细信息。

验证规则保存在 EME 中,实现版本控制、访问控制和配置管理。EME 将完全由 Ab Initio 技术构建的 DQ 进程、应用程序与 DQ 规则版本化,并添加标记,然后向实施应用环境升级,从而确保 DQ 进程的可靠性。

尽管 BRE 便于非技术用户定义验证规则,但也并非定义此类规则的唯一途径。用户也可采用 Co>Operating System 转换技术的完整功能实现最为复杂的规则。由于 BRE 和转换规则均运行于 Co>Operating System 之上,用户因此得以创建全面的数据质量度量综合策略。

报告

检测只是完整数据质量实施方案的第一部分,第二个重要组成部分则是报告。

数据质量报告由 Enterprise Meta>Environment(EME) 驱动。Ab Initio 的 EME 是企业级和企业规模的元数据系统,用于管理业务分析人员、开发人员、运行人员以及其他人员对于元数据的需求。EME 能够处理多种不同技术的业务、技术和运行三类元数据,包括数据质量统计信息。

Ab Initio 将数据质量统计存储于 EME 之目的出于报告。存储在 EME 的 DQ 信息之一为各字段和数据集的错误代码(问题)的累计总数。此累计与所度量的数据集及其存在问题的字段相关联。问题通过错误代码累积、报告,错误代码则存储于 EME 的全局性参考代码集之内(EME 支持参考代码管理)。

通过以下屏幕截图可看出,EME 能够显示字段级的问题及历史趋势图。超出配置阈值的计数以黄色或红色突出显示。

如下所示,Ab Initio 能够计算数据集和字段(列)的数据质量指标,这些指标也存储在 EME。另有包含这些指标的对应表格报告,其中包括趋势图和黄色/红色阈值。

在大型环境中采集数据质量度量值后,可以根据用户的组织结构来累计这些信息。这样一来,管理人员就可以通过一份报告查看整个系统、应用程序和/或主题范围的数据质量指标。通过这份报告,可以深入调查问题的细节。

以下屏幕截图显示了一些领域在整体上累计数据质量指标:

报告:沿袭

对于许多用户,开展数据质量计划的方法是针对单个系统的多个数据集实施数据质量检测。例如,用户通常只对企业数据仓库内的所有表进行数据质量度量,而忽略了其他方面。尽管度量单一系统数据质量好坏比袖手旁观要好一些,但对于更有实效的数据质量计划,数据质量检查却应跨越整个企业数据所有处理管道地多个阶段执行。例如,要在企业数据仓库中进行数据质量度量,同时也应该在记录系统、中间处理点及不同数据集市或提取系统的下游进行。无论这些系统是否由 Ab Initio 技术构建,均可采集质量指标。

通过在企业内多点进行数据质量度量,EME 使数据质量计划价值倍增。这是因为 EME 使数据沿袭与数据质量指标相结合,从而有助于精确定位产生数据质量问题的系统,找出数据质量问题的根本来源。

请看以下屏幕截图:

该屏幕截图显示了 EME 中一个展开的沿袭图。大灰色框代表单个系统。较小的绿色、红色和灰色框则代表数据集和应用程序。

数据质量指标对各元素进行标记。绿色表示良好,红色表示存在数据质量问题。通过这些图形表示法,非常容易追踪数据质量问题的演变路径,从问题的起点一直追踪到去向,现在,管理层终于可实际查看数据和问题在环境内的流动情况。

DQ 报告并不局限于内置的 EME 表现,EME 信息存储在商业关系数据库内。Ab Initio 为 用户提供数据库架构说明文档,使用户得以自由使用所选商业智能报告工具,开发出自定义的企业数据质量视图。

报告:Data Profiler

Ab Initio Data Profiler 结果也可用作 DQ 工作流的组成部分。与所有其他 DQ 度量值一样,这些结果也存储于 EME,可以通过 EME Web 门户查看。

许多企业认为,数据剖析只在项目初期执行,用于挖掘数据。其实,定期的自动数据剖析可显著增加综合数据质量计划的整体价值。数据质量指标虽然能够体现数据的总体质量状况和特征,但是通过数据剖析统计值,用户却得以层层钻透,深入地分析各种数据集的内容。

以下屏幕截图显示了 Data Profiler 针对特定数据集运行报告的顶层内容。多样性(唯一值)、有效性和完整性只代表 Data Profiler 挖掘的部分信息,用于确定需要进一步研究的字段。

以下屏幕截图显示了用户选定的需要进一步分析的字段。

用户可以在此屏幕层层钻透,进一步显示选定字段中包含特定值的实际记录。

结论

数据质量是每家公司都面临的一个问题,就检测、报告和分析数据质量问题方法而言,没有任何单一途径能够满足每家公司的所有需求。

Ab Initio 端到端的数据质量设计模式只需少量(或根本无需)定制即可投入使用。对于具有特定数据质量需求(如需其他类型的检测、报告或问题管理)的用户,Ab Initio 提供一种基于功能强大的预制模块的方法,同时具备通用性和灵活性。

Ab Initio 的数据质量方法以 Co>Operating System 为基础。Co>Operating System 提供一个高性能、多平台的计算环境,可针对任何类型的数据执行数据质量检测、改进、数据剖析及统计累计操作。Co>Operating System 可无限扩展,能够针对海量数据执行所有任务。

Ab Initio 的 Business Rules Environment 可让分析人员和/或领域专家通过方便灵活的图形界面开发和测试验证规则,从而显著提高创建和维护数据质量规则的效率和灵活性。

此外,Ab Initio 的 Enterprise Meta>Environment 提供数据质量统计与其他元数据(包括数据沿袭、数据字典、域代码集、运行统计、数据管理及其他技术、运行和业务元数据)之间前所未有的集成水平。

凭借在单一集成技术中完美融合无人可及的强大功能,Ab Initio 的数据质量功能形成鲜明的特色,在业界独树一帜。

English
Français
Español
Deutsch
语言:
简体中文
日本語