Oswald Regular
OpenSans Regular
Enterprise Meta>Environment®
Ab Initio® 元数据系统

IT 基础设施是现代企业的中枢神经系统,管理层必须对此了如指掌。系统处理哪些信息、信息代表什么含义、准确性如何、如何从一个位置输送到另一个位置、如何进行处理以及存储在什么位置,这些都是元数据的主要内容,即“关于信息的信息”。

但是,获取这些元数据并非易事。虽然有些产品声称能够解决这个问题,但其采取的方法却不切实际。实际上,“有关信息的信息”这一概念提出了一个问题,即哪种“信息”应被放在首要位置。这些元数据产品都把重点放在定义概念以及概念之间的相互关系上。虽然这些概念最终都会与实际信息相连,但这些连接非常脆弱。元数据必须由人工手动输入,主观而不完整,容易造成人为错误最终成为过时信息,原因是它滞后于始终在变化的实际系统。

Ab Initio 方法截然不同,侧重于“运行性”元数据,即由业务和 IT 管理人员操作的运行性元数据。其涉及处理数据的系统及其中应用程序,也涉及应用程序的规则。元数据涉及整个企业的数据集及其涵盖的内容、数据集到达方式及使用者信息。Ab Initio 方法涉及数据质量及其随着时间推移的变化情况,涉及所有 IT 系统的方方面面。

Ab Initio 还将运行性元数据与“业务”元数据(由业务人员创建,为企业内的各种信息块的业务定义)相连接。这样就造就了一个真正的企业元数据管理系统 Ab Initio® Enterprise Meta>Environment®,也称为 EME®

企业元数据管理系统必须是多事对多人的模式:

  • 首席财务官能够为监管机构讲解报表某个字段的意义并说明其数据源来源。
  • 首席信息官要了解公司 IT 系统的硬件和软件信息。系统由谁负责?它都依赖哪些系统?哪些系统依赖于它?这些系统的数据质量水平如何,在不同系统之间如何变化?
  • 业务分析师帮助部门负责人管理业务需求,需要业务术语表,用于识别数据分析工作需要汇集的数据,一切必须于当日下午 5 点之前完成。
  • 操作人员希望了解迄今为止应用实施环境发生的所有活动。哪些作业成功运行?运行花费了多长时间?处理了多少数据?还有多少备用容量?数据的质量如何?
  • 系统架构师关注组成公司系统的各种应用程序、数据表、文件及信息。各部分是如何连接的?什么产生了什么?什么读取了什么?什么又取决于什么?
  • 应用程序开发人员希望了解代码的变更历史。数据的现况如何?谁做了哪些修改?更改何时发生的?更改方式是什么?这是为什么呢?哪些已发布?哪些工作仍在进行中?

类似问题无休无止,快速获取有用的答案至关重要。通过 Ab Initio Enterprise Meta>Environment,这些问题都会迎刃而解。

上下文决定元数据

“元数据”一词在不同的行业具有不同的含义。Ab Initio“元数据”的应用针对商务计算环境。在某些领域,元数据具有截然不同的含义。例如图像处理领域,图像的捕捉时间、拍摄照片时所用设备及光照等信息都为元数据。Web 页面也有元数据,编写页面时使用的语言、创建时使用的工具,以及如何找到有关此主题的更多信息都属于元数据。

导航和了解元数据

通过 Ab Initio 的元数据图形用户界面(即 EME Metadata Portal),用户可在系统任何一点开始,以任意方向浏览。所有元数据只显示适用于特定用户的详细信息。业务用户在试图回答业务问题时,不会由于不了解技术方面的细枝末节而感到不堪重负,开发和运行人员也能轻松找到所关注的详细信息。

假设有一个文件,EME 确定该文件为报表中计算的最终来源。通过 EME,用户能够了解文件的哪些相关信息?Ab Initio 方法下的元数据元素彼此相关联,用户可通过直观的图形界面收集该文件的以下重要信息:

  • 哪些应用程序使用该文件
  • 记录格式
  • 数据质量
  • 随着时间的推移大小变化的情况
  • 各个字段所记录的预期值
  • 实际观测值
  • 负责文件管理的管理员
  • 有关其业务含义及其各字段使用情况的文档
  • 与逻辑模型及类似数据集的关系,包括数据库表和消息
  • 读取或写入数据集的程序列表

下方屏幕截图介绍 EME 中元数据的导航过程。屏幕下部分为沿袭图表,显示一些数据集及其处理关系。每个重叠图显示被链接到同一个元数据元素的不同元数据类型。

EME 能够显示
数据沿袭 及以下信息:
数据管理员信息
运行统计数据
数据剖析结果
概念定义
数据集详细信息
映射规范
条目关系
数据质量指标
数据质量警示
语义模式
b9
bg

元数据集成

捕获如此大量的元数据并存储在存储段本身就是一项了不起的成就,EME 的功能却远不止于此。EME 可以建立元数据元素之间的关系,更有效地丰富其价值,为公司内元数据的实际用户揭示业务的深层含义。

我们面临的挑战是如何有效地汇集所有元数据。在具有多形态的分布式(甚至全球)环境的大型复杂组织中,这种挑战尤为严峻。可扩展性和集成性为常见问题。如何从错综复杂的信息源和技术集合中收集元数据?如何处理如此多的信息?如何智能地存储和显示这些信息,既不让用户感到不堪重负,内容也不至于过分简化?如何跨不同业务种类、国家/地区甚至语言地综合元数据?

EME 可以集成所有不同种类的元数据,使其成效倍增。例如,通过集成能够获取跨技术的端到端数据沿袭,用于全面容量规划的统一运行统计,以及完全链接的数据剖析统计和数据质量指标。

有关 Ab Initio 应用程序的定义和执行的所有信息都会被自动捕获,并加载到 EME。其中包括业务规则、数据结构、应用程序结构、文档以及运行时统计信息。由于用户使用 Co>Operating System® 构建端到端的运行性应用程序,有关这些应用程序的一切内容都会被自动捕获。

此后,上述元数据通过 EME 的“元数据导入器”与 Co>Operating System 的高级元数据处理功能实现与外部元数据的集成。

通过 Ab Initio 对来源多样的元数据的支持,一个源系统的元数据可被来源多样的元数据所丰富。例如,“元数据导入器”可能会从一个数据库目录加载数据库表和列的核心细节,然后使用建模工具的描述和逻辑链接丰富元数据,最后再将加载的元数据链接到数据质量指标。“元数据导入器”可以加载的外部元数据包括:

  • 报表工具:MicroStrategy、Business Objects、Cognos …
  • 建模工具:ERwin、ERstudio 和 Rational Architect …
  • 所有主要和最小关系数据库管理系统的数据库系统目录
  • 表格元数据,通常使用预定义的模板或特定于客户的布局存储在电子表格中
  • 用于元数据交换的行业标准协议,包括公共仓库模型 XML 元数据交换格式 (CWM XMI)

EME 也可用于将非标准和自定义元数据源的导入和集成。用户凭借 Co>Operating System 的强大数据处理能力随意处理复杂的元数据源。Co>Operating System 从这些非标准系统中提取元数据,根据需要对其进行处理、加载,并与 EME 中的其它元数据相集成。

多种类型的元数据

EME 可以集成的元数据范围广泛,并且完全可扩展。通过 Metadata Portal 的主页,用户可直接浏览所关注的元数据类型:

在此页面中,用户可以选择关注的区域,深入了解详细内容:

有关项目和应用程序的元数据。EME 存储和管理有关 Ab Initio 项目及其所含应用程序的所有信息。项目按层次结构进行组织、共享或保持为专用。EME 随时跟踪哪些项目引用了其他项目,并跟踪项目内的所有对象。

有关应用程序版本的详细信息。EME 维护有关 Ab Initio 应用程序每个细节的完整版本信息和历史记录。图形、记录格式和转换规则的版本之间的差异以图形方式显示。用户可以看到应用实施环境下作业的确切版本详细信息。

用户、用户组、锁定和权限。EME 提供对所有元数据的访问控制管理。此外,作为完整的源代码管理系统的一部分,EME 对应用程序的整体或不同分段的独占锁定机制还可以避免开发人员之间产生工作版本冲突。

元数据层次化结构。元数据可以组织成任意层次结构和文件夹形式,以捕捉业务的抽象含义,并提供有针对性的导航。

数据字典。EME 支持创建一个或多个数据字典或概念性的数据模型。数据字典可以是简单的业务术语层次结构列表,也可以是包含业务术语之间复杂关系的复杂语义模型。

企业范围的部署通常具有多个数据字典(每个部门或产品领域对应一个)以及一个企业模型。在 EME 中,部门业务术语直接链接到各个列和字段,其间关系可以回溯到企业模型。这就使得公司能够协调整个企业的经营理念,无需强制各个部门放弃内部数据字典。

来自报表工具的元数据。EME 可以从各种主要商业智能 (BI) 报表工具(包括 MicroStrategy、Business Objects 和 Cognos 等)导入元数据。这包括有关报表和报表字段以及 Facts、Metrics、Attributes 和 Aggregates 等内部报表对象的详细信息。沿袭查询可以通过 BI 工具对各种报表字段的计算进行跟踪,回溯到数据集市或数据仓库,并一直追溯到最终来源。

来自数据库系统的元数据。EME 可以从多种数据库系统导入元数据(模式、表、列、视图、键、索引及存储过程)。EME 通过多层次的视图和存储过程执行沿袭分析。对于大型数据库系统,EME 通常是了解数据库表、视图和过程之间相互关系的“唯一”途径。进行影响分析查询、表的重复应用以及整合项目时,EME 更是必不可缺的关键工具。

来自文件的元数据。EME 可以导入有关文件的元数据,包括复杂层次化记录格式,如 XML 和 COBOL copybook。

端到端的数据沿袭。通过大量不同的运行系统、报表工具、数据库系统、ETL 产品、SQL 脚本等获取元数据,EME 可以为流经企业的数据流建立完整的模型。通过集成模型,用户可查询系统中有关数据沿袭的信息,例如数据如何计算得出,变更影响哪些对象等。

系统图表。EME 存储表示系统图表或元数据组织的图解图形。在 Metadata Portal 中,点击图表中某个图形项目的“热链接”,用户即可导航到所连接的元数据对象。

逻辑模型。EME 可以从常见建模工具导入逻辑和物理模型,模拟从逻辑模型到物理模型的链接,然后将其与实际数据库中的架构信息合并。

域和引用数据。EME 存储域和引用代码值等引用数据,作为某些引用数据的主要管理工具,也可以跟踪和维护来自不同系统的引用数据的副本,同时支持逻辑域值与多个物理编码之间的代码映射。

数据剖析。EME 存储数据剖析结果,并将其与数据集和单个的域链接在一起。EME 会对许多统计数据进行计算,例如共享值和数据分布,可以按需计算,也可以作为 Ab Initio 应用程序的一部分自动计算。

运行统计。Co>Operating System 针对每个作业和读取或写入的每个数据集生成运行时统计数据,可以存储在 EME 中用于趋势分析、容量规划和常规的运行查询。

数据质量指标。为了支持全面的数据质量计划,Ab initio 可以对数据质量统计数据和错误聚合进行计算,并将其存储在 EME 中。EME 可以分析和显示数据集与数据集集合的数据质量指标。数据质量指标也可以与数据沿袭结合,显示企业中存在的数据质量问题的“热点警示图”。

预开发规范。EME 可以保存作为开发过程一部分的映射规范。Metadata Portal 允许分析师指定现有或拟议中的源和目标及任意映射表达式。通过使用 EME 定义映射,用户判断这些映射是否适合于大型企业沿袭总体情况。

开发团队随后将这些规范应用于开发指导及永久记录各种需求。实施应用部署完毕后,EME 会继续在沿袭图表中显示这些规范,并与实际的实施情况并排显示。

数据屏蔽规则。EME 可以存储数据屏蔽规则,屏蔽规则随后可通过 Ab Initio 应用程序应用到数据流。Ab Initio 提供了许多内置规则,用户也可以自定义屏蔽算法。这些规则可以关联到字段、列或概念模型中的业务术语。在概念层面建立链接后,数据屏蔽规则会被自动应用到相应的物理列和字段。

与个人和用户组相关的数据管理员和元数据。EME 可以存储有关个人和组的元数据,并可链接到其它元数据对象,以便记录数据管理角色(如数据管理员)。有关个人和组的元数据可自动从外部系统(例如企业的 LDAP 服务器)导入。

内置和自定义的元数据报表。EME 提供了许多内置报表。用户还可以针对 EME 中存储的元数据定义自定义的报表,并可通过 Metadata Portal 对其进行访问。

自定义元数据。用户可以扩展 EME 架构,将各种额外的元数据集成到 EME 中。架构扩展包括增加现有对象属性及创建可链接到其它现有元数据的新元数据对象。用户可以轻松自定义 EME 的用户界面,无论标准元数据还是自定义元数据都可以使用表格和图形视图。

EME® 是一个开放的系统

EME 是一个基于行业标准技术的开放系统:

  • 已发布的可扩展关系架构。EME 本身即带有预配置的丰富元架构,包含多种类型的元数据。元架构可以通过自定义的表和列进行自定义和扩展,以支持各种用户定义的元数据。EME 对这些扩展和自定义对象的管理与内置元数据对象完全一致,同时提供完全可自定义的屏幕和报表。
  • 标准的商业关系数据库(目前为 Oracle、DB2 或 Microsoft SQL Server),拥有全部业务元数据,以及运行性元数据和技术元数据的索引。技术元数据存储于对象数据存储集,可通过 ODBC 访问。
  • 图形用户界面,可以托管在任何标准的 Web 浏览器中。此外,EME 还支持导航到详细元数据的外部存储库,如文档管理系统、图像数据库以及第三方产品。
  • 三层体系结构,采用常见的应用服务器技术。数据库顶层是一个标准的 Java 应用服务器(目前为 WebSphere、WebLogic、JBoss 或 Apache Tomcat),用来管理安全性,计算基于角色的视图,并针对元数据的维护实施工作流。
  • 支持外部报表工具。EME 可以通过 Metadata Portal 支持各种内置报表,也可以利用第三方报表产品直接访问数据库中的元数据,从而自定义报表。关系架构被完整记录下来,并带有预配置的数据库视图支持这些报表工具。
  • Web 服务 API,能够使面向服务的体系结构和元数据作为服务来运行。这些接口允许外部系统查询业务元数据,提交元数据变更请求。外部系统还可以订阅元数据变更,从而使 EME 在出现任何通过批准的变更时发送通知邮件。例如,如果使用 EME 管理有效值,审批工作流(将在后面介绍)可以向外部运行系统发送邮件,更新其缓存的有效值的查询。
  • 元数据导出。除了数据访问接口外,EME 还可以通过多种方式导出元数据。例如:
    • 鼠标轻轻一点,即可将每个 EME 表格屏幕转换成 Excel 电子表格。
    • EME 可以使用 CWM XMI(一种元数据交换标准)来导出元数据。
    • EME 可以生成业务对象总体,并用元数据填充之。

元数据管理

EME 提供先进的管理流程,通过自定义功能满足大型企业定制需求。

对于技术元数据(应用程序和业务规则),EME 支持完整的源代码管理系统,这包括签入/签出、锁定、版本控制、分支以及差异检测等功能。

对于业务元数据和运行性元数据,EME 带有内置元数据管理工作流,包括工作队列、审批和审计跟踪。EME 还提供与外部审批工作流工具连接的接口。EME 的提议/审批工作流机制基于“变更集”。用户通过创建变更集提交元数据的增加、更新和/或删除建议,然后提交申请审批。

下面为变更集提交过程的屏幕截图:

用户提交变更集并要求审批时,EME 会向相应的元数据管理员发送电子邮件。管理员可以检查提议并决定批准或拒绝这些变更。获得批准的变更集合将被实施,并呈现给普通用户群。

EME 也支持通过其 Web 服务 API 以及外部工作流审批/BPM 系统(例如 Oracle 的 AquaLogic)来集成变更集。在这种情况下,外部工作流系统负责与工作队列中项目通信、记录通信、管理呈报升级并决定最终状态。

所有批准的变更集都会在 EME 生成新的元数据版本。EME 会维持所有先前版本的完整历史记录及其详细资料。

结束语

企业元数据管理是各大公司长期以来一直追求的目标,却似乎很不现实,难以实现。消极被动的“存储库”(在很多情况下被美其名曰为数据字典)只包含相关元数据的一小部分,并且很快就会变为陈旧过时的元数据“孤岛”。越是急需全面元数据管理方案的企业(即那些面临可扩展性、元数据来源多样性、业务线交叉的安全性以及显示和导航海量信息等固有问题的全球性公司),所面临的挑战规模就越大。

通过 Ab Initio 的 Enterprise Meta>Environment,大型企业巨头得以实现企业元数据的管理。以下为部分实例:

  • 一家世界主流国际银行最终满足了管理层的要求,会计数据可随时接受审计。通过 EME ,该银行推广了涉及整个企业的全面数据质量计划(包括在数据沿袭的各点进行质量测量)。
  • 一家金融机构业界领头羊在更换关键软件系统时节省了数千万美元,EME 使其对历史代码的理解成为现实,并使业务部门和 IT 部门协同合作,确保替代系统的正常运转。省去许多年度计划中技术人员的工作量。
  • 多家跨国企业的 IT 环境极为复杂,在多达 100 个国家/地区运营,具有成千上万个完全不同的系统、数十万个文件、数据库表和邮件。通过 EME,这些企业得以存储所有数据,并定义其含义和值,将 EME 作为其资产系统的主要管理工具。这些企业意识到数据项目是和汽车、建筑物、办公等设备一样的资产,需要跟踪管理。

Ab Initio EME 的问世即非一蹴而就,也非从象牙塔中凭空而生,而是与这些客户多年潜心合作的结果

English
Français
Español
Deutsch
语言:
简体中文
日本語