Oswald Regular
OpenSans Regular
データ品質

データ品質にまつわる問題は重要です。この問題は会社の収益に大きな影響を与えかねません。不良データは仕事の重複やビジネスチャンスの見逃しにつながります。データは組織全体を移動するので、データ品質の問題が蓄積すると、問題の範囲と影響がどんどん拡大していきます。最悪の場合は、間違った結論に基づいて企業幹部が経営上の意思決定を誤る可能性もあります。これは深刻なことです。にもかかわらず、大半の会社には、データ品質の問題を評価し軽減できる正式なデータ品質プログラムがありません。ほとんどの会社は、データ品質に関する問題があることに気づいてさえいません。

データ品質問題の解決策は、企業データ品質(DQ)プログラムを実施することです。本質的に、企業DQプログラムは1つのパッケージ化されたソリューションでは歯が立ちません。DQは総合的なアプローチとビジネス全体にわたる複数の接点を必要とし、さまざまなテクノロジ全体に実装される必要があります。DQはデータ処理パイプラインに不可欠な要素であり、オフラインの遡及分析だけに限定すべきではありません。DQは単に顧客の名前と住所のクレンジングだけの問題ではありません。企業情報の一貫性と表現の“すべて”に関係します。

DQに使用されるテクノロジがパイプライン処理の一部である場合は、運用レベルの堅牢性が必要です。複雑なレガシーデータ、リアルタイムのトランザクション、そして持続的な大容量処理に取り組まなければなりません。こうした要件を満たさないアプローチは最終的にオフラインでのデプロイとなり、期待に添うことはありません。このことは、特定の種類のデータに特化し、限られた状況でしか使用できない特殊用途のDQツールで起こりがちです。

データ品質に対するAb Initioのアプローチは異なります。それはシステム全体に及びます。Ab Initio®のCo>Operating System®はアプリケーション開発と実行の完全な環境であるため、データ品質に対するアプローチはCo>Operating Systemをデプロイできる場所であれば運用環境や分析環境を問わず、どこでも機能します。Co>Operating Systemは複雑な既存データをネイティブに処理し、異種サーバー環境で分散実行します。高パフォーマンスを実現し完全にスケーラブルできわめて複雑なロジックも実装できます(Co>Operating Systemの詳細をお読みください)。

Ab Initioのシステム全体のデータ品質アプローチは、Ab Initioのシームレスに連動するテクノロジを使用した設計パターンに基づいています。Co>Operating System、Enterprise Meta>Environment®(EME®)、Business Rules Environment(BRE®)、Data Profilerを含め、これらはすべて一貫して構築されます。Ab Initioを使用すると、検出、修正、レポート作成、警告などの総合的なデータ品質プログラムを実装できます。

設計概要

DQに関しては、特にレガシーシステムが多い大きな組織の場合、すべての組織に合う単一のソリューションはありません。したがって、Ab Initioはどのようなニーズであっても特定のニーズを満たすカスタムデータ品質ソリューションをユーザーが組み立てられるように、多彩な構成ブロックを提供しています。データ品質プログラムの導入を開始したばかりのユーザーには、完全なプログラムの基盤として機能するリファレンス実装を提供しています。さまざまなニーズを抱えるユーザーや、既にデータ品質プログラムの一部を導入しているユーザーは、Ab InitioのDQ構成ブロックを目的に応じて既存のインフラストラクチャに接続することもできます。

データ品質の標準的な実装では、次のように最初にCo>Operating Systemを使用して再利用可能で効果的なDQ処理コンポーネントを構成します。

Co>Operating Systemを使用すると、コンポーネントにアプリケーション全体を含めることができます。この再利用可能なDQ処理コンポーネントは、それ自体がアプリケーションであり、次のものが含まれています。

  • データ品質の問題を検出して修正するサブシステム。Co>Operating Systemは欠陥検出を実装する基盤として機能します。BREを使用すると、分析しやすいインターフェイスで検証ルールを設定でき、Data Profilerをプロセスに統合して傾向分析や詳細な問題検出が可能になります。
  • データ品質レポート作成システム。EMEにはデータ品質レポート作成機能が組み込まれており、その他のエンタープライズメタデータ、データ品質メトリックとエラーカウント、およびデータプロファイル結果と統合されています。ユーザーは、EMEスキーマを拡張して追加のデータ品質情報を保存し、基本的なEMEの機能を独自のレポート作成インフラストラクチャで補強できます。
  • 問題報告データベース。データ品質の問題があるレコードがデータベースまたはファイルにログ記録されるので、それらのレコードを完全なデータ品質ワークフローの一環として調査することができます。Ab Initioはそれらのレコードを保存、検索、表示するテクノロジを提供していますが、必要に応じて他のデータ保存テクノロジを選ぶこともできます。

このDQ処理コンポーネントは通常、既存のアプリケーションの一部として実行します。アプリケーションがAb Initioで構築されている場合、DQコンポーネントを簡単に接続できます。Ab Initioで構築されていないアプリケーションの場合は、DQ処理コンポーネントを明示的に起動する必要があります。DQコンポーネントは、データを直接供給する独立したジョブとして実装することもできます。以下は、既存のアプリケーションにスタンドアロンソリューションと統合ソリューションをデプロイする例です。

データ品質の処理ワークフロー

下図は完全なデータ品質検出ワークフローの例です。それぞれのDQデプロイはユーザーの特定のニーズに合わせてカスタマイズされる点が重要です。

前述したように、このDQプロセスへの入力Aはデータの種類やソースを問いません。フラットファイル、データベーステーブル、メッセージキュー、Webサービスのトランザクションなどが可能です。また、Ab Initioまたは別のテクノロジで実装された他のプロセスの出力も使用できます。DQプロセスはCo>Operating System上で実行するため、Co>Operating Systemが処理できるデータであれば、複雑なレガシーデータ、階層構造のトランザクション、世界のさまざまな文字コードデータなど、何でも使用可能です。

DQプロセスの出力Bもターゲットやデータの種類を問いません。

最初のステップは、データへの検証ルール1の適用です。検証ルールは個々のフィールド、レコード全体、データセット全体に対して実行できます。各レコードには1つまたは複数の問題がある可能性があるので、検証ルールはレコードごとにDQの問題セットを生成しますE。これらの問題の重大性と対処方法はさらに下流で決定されます。

次に、クレンジングルールがデータに適用され2、出力はDQプロセスの結果ですB。ユーザーはAb Initioの組み込みクレンジングルールを使用するか、Co>Operating Systemを使用して独自のルールを作成できます。検証ルールとクレンジングルールはBREで簡単に設定できますが、Co>Operating Systemのデータ処理を活用できるので、これらのルールの高度化に制限はありません。

クレンジングできないレコードは問題アーカイブに出力されます4。問題のあるレコードは、通常、問題を解決するために人が行なうワークフローに進みます。

各レコードの問題リストEも分析され3、レポートとアラートが生成されます5。このプロセスはCo>Operating SystemでAb Initioの標準“グラフ”を使用して構築されるため、事実上どのようなレポートや処理でも可能です。Ab Initioの標準的なDQアプローチには、以下の作業が含まれます。

  • 完全性、正確性、一貫性、安定性などのデータ品質メトリックを計算する
  • 個々のフィールドの頻度分布を調べる
  • エラーコードと値の集約カウントを生成する
  • 上記すべての現在値と履歴値を比較する
  • 現在の評価と過去の評価における顕著な差異を示す

以上で生成された情報は、監視や今後の参照用にすべてAb Initio EMEに保存されます。すべてのDQ情報は、同じくEMEに保存される参照データをはじめとする他のメタデータに統合できます。

これらのステップに関連付けられた計算はCPUリソースをかなり消費する可能性がありますが、Co>Operating Systemは複数のサーバー上の複数のCPUに負荷を分散できるので、“常に”完全なデータ品質処理を処理パイプラインに含めることができます。

上記で示したように、データ品質評価に対するAb Initioのアプローチには、ユーザーのニーズに応じてカスタマイズと設定ができる充実したオプションが揃っています。データの処理、結果の計算、その間のステップがすべてAb InitioのCo>Operating Systemを使用して実装されます。つまり、データの種類にかかわらず、ほとんどのプラットフォーム(Unix、Windows、Linux、メインフ レームz/OSなど)で高性能なデータ品質チェックを実行できます。大量のデータを処理する状況では、データ品質チェックプロセス全体を並列実行して遅延を最小限に抑えることができます。

次のいくつかの項では、検証ルールの作成とデータ品質結果のレポートに使用する分析しやすいユーザーインターフェイスの例を紹介します。

検証ルール

データ品質のほとんどの問題は、ソースデータセットに検証ルールを適用することで検出されます。Ab Initioのデータ品質設計パターンでは、Ab InitioのBusiness Rules Environmentを使用して1レコードずつの検証ルールを定義できます。BREは、技術的知識の少ないユーザー、各分野の専門家、業務アナリストなどがスプレッドシート形式のインターフェイスを使用して検証ルールを作成しテストできるように設計されています。

BREを使用して検証ルールを定義する方法は、2とおりあります。ほとんどの場合は、フィールド名が左側、検証テストが上側にある簡単なスプレッドシート(検証グリッド)に入力してルールを定義します。

このインターフェイスを使用すると、どの検証テストをデータセットのどのフィールドや列に適用すべきかを容易に指定できます。BREには組み込み検証テスト(ヌル、空白、値範囲、データ形式、ドメインメンバーシップなど)が多数含まれていますが、個々のフィールドに適用できるカスタム検証テストを開発者が定義することも可能です。カスタム検証テストは、開発者がAb Initioのデータ操作言語で記述してからBREで使用します。

さらに複雑な検証ルールについては、BREで“テーブル形式のルール”を定義できます。このような複雑な検証ルールは、レコード内の複数の入力フィールドを処理して、データ品質の問題があるかどうかを判別します。各ルールがエラーと配列コードを生成し、これらが改善プロセスを促進します。

BREでは、各分野の専門家が検証ルールの設計、入力、テストを同じユーザーインターフェイスから実行できます。BREのテスト機能を使用すると、さまざまな入力に対してどのルールがトリガされるかを対話的に表示できます。したがって、ルールが期待どおりに動作しているかどうかを容易に確認できます。

次の図は、テスト中の検証ルールを示しています。BREには、すべての検証テストの一致カウントと各テストレコードの詳細が表示されます。

検証ツールはバージョン管理、アクセス制御、および設定管理を提供するEMEに保存されます。DQプロセスを含め、すべてがAb Initioだけで構築されているアプリケーションの場合、アプリケーションとDQルールにはバージョン番号とタグが付けられて一緒に運用環境にプロモートされます。これによって、堅牢なDQプロセスが実現します。

BREを使用すると、技術的な知識の少ないユーザーが簡単に検証ルールを定義できますが、そのようなルールを定義する方法は1つではありません。Co>Operating Systemの変換テクノロジを活用すると、複雑なルールのほとんどを実装できます。BREも変換ルールもCo>Operating System上で実行するため、データ品質の包括的な評価戦略を作成できます。

レポート作成

“検出”は、完全なデータ品質プログラムを実装するための第一歩です。そして、2番目の主要部分は“レポート作成”です。

データ品質レポートはEnterprise Meta>Environment(EME)によって実現されます。Ab InitioのEMEはエンタープライズクラス、そしてエンタープライズスケールのメタデータシステムであり、業務アナリスト、開発者、運用担当者のメタデータニーズを管理するように設計されています。EMEは、業務、技術、運用の3分野におけるさまざまなテクノロジで生成される多種多様なメタデータを処理します。このメタデータにはデータ品質の統計も含まれています。

データ品質統計は、レポート作成の目的でEMEに保存されます。EMEに保存されたDQ情報の1つに、個々のフィールドとデータセットのエラーコード(問題)の集約カウントがあります。このカウントは、評価しているデータセットと、問題のあるフィールドに関連付けられています。問題は集約され、参照コードのグローバルセット内でエラーコード別にレポートされ、EMEに保存されます(EMEは参照コードの管理をサポートしています)。

次の図は、EMEがフィールドレベルの問題とともに履歴傾向グラフを表示できることを示しています。設定可能なしきい値を超えるカウントは、黄色または赤色でハイライトされています。

下に示すように、Ab Initioはデータセットとフィールド(列)のデータ品質メトリックを計算できます。そして、これらのデータもEMEに保存されています。これらのメトリックに相当するテーブル形式のレポートがあり、傾向グラフと黄色/赤色のしきい値が含まれています。

データ品質評価が大規模な環境で取得されると、ユーザーの組織構造に従って情報を集約できます。これにより、管理者はシステム全体、アプリケーション、サブジェクト領域などのデータ品質メトリックを1つのレポートで確認できます。このレポートから、詳細を掘り下げて問題領域を調べることができます。

次の図は、多数のサブジェクト領域概要とその集約的なデータ品質メトリックを示しています。

レポート作成: 系譜

多くの場合、ユーザーは、“単一”システムの多数のデータセットにデータ品質チェックを実装することで、データ品質プログラムを展開します。たとえば、エンタープライズデータウェアハウスのすべてのテーブルについてデータ品質を評価しても、その他の場所は評価しないという状況は珍しくありません。1つのシステムのデータ品質を評価することはデータ品質を全く評価しないよりは良いですが、エンタープライズ処理パイプライン全体について複数の段階でデータ品質チェックを行うデータ品質プログラムは、さらに有益です。たとえば、データ品質はエンタープライズデータウェアハウスにおいて評価できますが、処理途中の値、およびさまざまなデータマートや抽出システムのダウンストリームにおいても評価できます。これらの各システムは、Ab Initioで構築されたかどうかにかかわらず品質メトリックを取得できます。

データ品質の評価が企業内の複数のポイントで行われる場合、EMEによってデータ品質プログラムの価値はより大きくなります。これは、EMEがデータ系譜とデータ品質メトリックを組み合わせて、システムにデータ品質プログラムを導入する場所を正確に特定できるためです。

次の図をご覧ください。

この図はEMEで展開された系譜図を示しています。大きいグレーのボックスはそれぞれ異なるシステムを表しています。緑、赤、グレーの小さいボックスはデータセットとアプリケーションを表しています。

データ品質メトリックは個々の要素にフラグを付けることができます。緑は良好です。赤はデータ品質の問題を示しています。このような図があれば、データ品質の問題の経路を発生から到達先まで容易にたどることができます。こうして、管理者は初めて、使用している環境でデータや問題の流れを実際に確認できるわけです。

さらに、DQのレポート作成機能は組み込みのEME画面に限定されません。EMEの情報は一般的なリレーショナルデータベースに保存され、Ab Initioはそのスキーマのドキュメンテーションを提供しています。ユーザーは好みのBIレポート作成ツールを使用して、エンタープライズデータ品質のカスタムビューを作成できます。

レポート作成: Data Profiler

DQワークフローの一部としてAb Initio Data Profilerを使用することもできます。他のDQ評価と同じく、これらの結果はEMEに保存され、EME Webポータルに表示できます。

多くの組織は、データのプロファイリングをプロジェクト開始時のデータ検出用に限定されたものと見なしています。しかし、定期的な自動データプロファイルは総合的なデータ品質プログラムに大きな価値を加えます。データ品質メトリックはデータの全般的な整合性と特徴を捉えることができる一方で、データプロファイラの統計により、さまざまなデータセットの内容を掘り下げて詳しく分析できます。

次の図は、特定のデータセットで実行しているData Profilerの最上位のレポートです。多様性(特異的な値)、有効性、および完全性はData Profilerが検出する情報のごく一部に過ぎません。この情報を使用して、どのフィールドにさらに調査が必要かを選別できます。

次の図は、ユーザーが詳しく分析するため選択した特定のフィールドを示しています。

この画面から、選択したフィールドに特定の値を含む実際のレコードの表示までたどることができます。

結論

データ品質はどの会社も直面する問題ですが、問題の検出、レポート作成、調査においてすべての組織のニーズに合う単一のアプローチはありません。

Ab Initioの統合的なデータ品質設計パターンは、少しのカスタマイズを行なって使用することも、カスタマイズなしで使用することもできます。追加の検出タイプ、レポート作成、問題管理など、特定のデータ品質の要件を抱えるユーザー向けには、Ab Initioはあらかじめ用意されている多彩な構成ブロックに基づく汎用的で柔軟なアプローチを提供しています。

データ品質に対するAb InitioのアプローチはCo>Operating Systemを基盤としています。Co>Operating Systemは、あらゆる種類のデータにデータ品質の検出、改善、データプロファイル、統計集約を実行する高パフォーマンスマルチプラットフォームのコンピューティング環境を提供します。Co>Operating Systemのスケーラビリティには制限がないので、大量のデータに対してこれらすべてのタスクを実行できます。

Ab InitioのBusiness Rules Environmentを使用すると、アナリストや各分野の専門家が使いやすいグラフィカルインターフェイスを使用して検証ルールの設定とテストを実行できます。その結果、データ品質ルールの作成と管理における生産性と速度が向上します。

さらに、Ab InitioのEnterprise Meta>Environmentでは、データ系譜、データ辞書、ドメインコードセット、運用統計、データ管理権限、その他の技術、運用、業務メタデータを含む、他のメタデータにこれまでにない水準でデータ品質の統計を統合できます。

これらの機能を1つの統合テクノロジに組み合わせたAb Initioのデータ品質の機能は、非常に優れた特徴を持っています。

English
Français
Español
Deutsch
简体中文
言語:
日本語