Oswald Regular
OpenSans Regular
飞翔的翅膀
元数据使企业数据仓库以无比迅猛的速度发展。

人们常常低估构建企业数据仓库 (EDW) 的技术难度。

为了比较,我们以制造飞机的流程为例。尽管飞机由数十万个零部件构成,组装线下线的每架飞机却都与前一架大致相同。零部件都已预先设计和制造,装配在一起没有任何问题。飞机的结构众所周知(两个机翼、一个机身,还有起落架等),尺寸、形状和材料设计工程也易于理解,而且所有飞机都在空中飞行,人们对地球上空大气层的性质也了如指掌。因此,虽然制造飞机并非易事,却是能够预见结果的重复性工作。

EDW 绝非如此。每个 EDW 都与其他 EDW 迥然相异,都有其独特的一套输入和输出,将所有数据存储于结构易于理解的方法也不尽相同。在努力创建一致性和可重用性的同时,客户将目光投向“行业标准模型”。虽然这听起来不错,实质上却象声称飞机、直升机和宇宙飞船都按照同一图纸制造出来一样不切实际。不错,概念上是相同的,但在细节层次上的差异却大相径庭。

为何如此困难

细节随小,却足以致命。在 EDW 领域,细节表现为需求收集:行业标准模型转换为实体模型。实体模型转化为功能需求。这些功能需求再转变为描述规则和映射的电子表格。之后,这些电子表格被送到离岸团队,最终转变为代码。当使用开发的代码(通常为首次)处理实际数据时,结果出人意料:代码与数据不匹配,团队必须重做所有工作。如此三番五次地推倒重来,一而再,再而三地反复进行无用功。这一过程就好比在没弄清飞机是在天上飞还是在水中游的情况下,就开始制造飞机一样的盲目。即使有最好的架构师和工程师,错误也会不断发生,代价仍然高昂。

由于海量数据流进/流出 EDW,EDW 因此实际由大量的“数据输入源”组成,每个数据源都需要大量的工作人员独立处理,这样就大大加剧了问题的复杂性。为了管理庞大的员工队伍,每个数据源又进一步分解为各不相同的步骤,每个步骤通常由一名工作人员负责。结果,员工之间存在大量的交接。由于每个数据源都是单独开发的,因而基本上无法复用员工相互交接的任何应用程序。这一切使构建 EDW 所需的时间成倍增加。时间就是金钱,因此使用标准方法和标准技术构建 EDW 的成本非常高昂。

AB INITIO 的解决之道

但是,有一种更好的办法。

Ab Initio 采用“第一原则”思想解决了此问题,结果令人惊喜。实现一个数据输入源通常需要三到四个月的时间,Ab Initio 方法只需三两周,甚至区区几日!这就是 Ab Initio 构建元数据驱动的数据仓库 (MDW)理念。

MDW 由大量基于 Ab Initio 的可复用应用程序组成,能够处理从源文件到整合的 EDW 模型全程数据的应用程序。其涵盖了通常由手工构建的所有数据输入源处理的复杂任务:文件检查、数据填充、筛选、验证、清理、密钥管理、历史记录管理、聚合、映射、归档、恢复和模型加载。每一种 EDW 活动都进行了高度抽象处理,只需更改相关元数据,各种数据输入源即可使用同一应用程序模板。

在设计上,MDW 使得支持分析师在开发周期开始时就可指定并测试数据输入源的处理功能,通常不涉及任何开发任务。这个方法基于使用元数据驱动系统。这些元数据通常就是分析师在文档中指定的元数据,如目标数据模型、文件格式、密钥、映射规则等。与编写文档再将其转交到开发团队的方式不同,通过 MDW,分析师可直接输入元数据,然后根据实际数据随时运行并测试最终生成的应用程序,从而避免了反复进行漫长而昂贵的开发和测试。节省的时间纵然不少,但系统质量的提高则更为可观,其根源在于减少了参与的工作人员和涉及的步骤。

Ab Initio 技术在设计之初就支持该理念。从用户的角度来看,开始构建 MDW 时就节省开支,之后的优势会越加明显。例如,所有输入的元数据都存储在 Ab Initio 的 Enterprise Meta>Environment (EME) 元数据存储库。产品提供必要的管理功能,如版本控制、数据沿袭、影响分析、数据质量和访问安全性。通过 EME,管理人员可在整体上查看系统,这是任何其他方法都望尘莫及的。他们可随时查询如何计算出报表所列数据,数据可一路回溯到操作系统,也可快速查明数据在系统的传播途径,这些功能对于审计和预测维护工作具有重要意义。此外,管理人员可以掌控数据质量以及质量对下游系统的影响。总之,管理层终于可以了解其投资构建的系统。以前,他们对此一无所知。

Ab Initio 已帮助许多客户构建了 MDW。Ab Initio 构建的每个 MDW 在保证满足这些客户迥然而异的特定需求的情况下,确保了其可重复利用性和可预见性。

English
Français
Español
Deutsch
语言:
简体中文
日本語