Oswald Regular
OpenSans Regular
開発の泥沼からの飛翔
メタデータ主導ですばやくEDWを構築する

我々は、エンタープライズデータウェアハウス(EDW)の構築という課題をつい過小評価しがちです。

比較のために、航空機を製造するプロセスを考えてみましょう。航空機には何十万もの部品があり、組み立てラインに入る各航空機は前に作ったものとほぼ同じです。部品はうまく組み合わされるように事前に設計され、製造されます。航空機のアーキテクチャ(2つの翼、1つの胴体、着陸装置など)はよく知られており、設計時にサイズと形状を選択するために必要な技術要素と材料も既に知られています。すべての航空機は大気中を飛び、地球の大気の特性は十分に確認されています。航空機の製造は非常に難しいものですが、そのプロセス自体は結果が予想できるかなり反復的な作業です。

EDWではそうはいきません。EDWは、それぞれが異なります。各EDWには、それぞれ全く異なる入力と出力のセットがあり、それらのデータをEDW内のデータ構造に組み込む方法も異なります。適合性と再利用を促すため、顧客は“業界標準モデル”を使用する方向にシフトしてきました。これはよいアイデアのように見えますが、まるで、航空機、ヘリコプター、ロケットのすべてを1枚の設計図から製造可能だと主張するようなものです。確かに概念的にはすべて同じですが、現実の差異がそれを不可能にしてしまいます。

何故そんなに難しいのか?

なぜ不可能になるのでしょうか?EDW開発の現実は要件の収集から始まります。業界標準モデルは物理モデルに整形されます。物理モデルは仕様としてその形を変えます。仕様は(既存データから変換を行う)ルールおよびマッピングのスプレッドシートに落とし込まれます。スプレッドシートは海外に送られ、そこでコードに変換されます。コードは実際のデータに対して実行される段階になると(多くの場合はそのとき初めて)、送り返されてきます。びっくりです!驚きです!コードはデータに適合せず、動きません。開発チームは最初からやり直すはめになりました。仕様の修正も必要です。そして、これが何度も何度も繰り返されます。このプロセスは、航空機の製造を開始する際、それが空を飛ぶのか水中を進むのかも知らずに始めるのと似ています。最高のアーキテクトやエンジニアを揃えたとしても、間違いが頻繁に発生し、コストも高くつき、プロジェクトは低空飛行です。

さらに悪いことには、EDWに出入りするデータストリームは非常に多いため、EDWは大量の“フィード”に分解され、多数の人がそれぞれのフィードで別々に作業することになります。多くの人を管理するために、各フィードはさらに個々のステップに分解され、通常はステップごとに別の人が割り当てられます。その結果、人から人へ大量の引き継ぎが行われ、各開発者は何のためのコードを書いているかもわからず、各フィードは個別に開発されるので再利用されることはほとんどありません。これらすべてがEDWの構築に必要な時間を倍増します。時間はコストとイコールです。標準的なテクノロジで標準的なアプローチを使用すると、プロジェクトは泥沼に陥りがちで、EDWの構築は非常に高価になります。

Ab Initioは、どうサポートできるか

しかし、もっとよい方法があります。

Ab Initioは“第一原則”主義を使用してこの問題に挑戦し、驚くべき結果を出しました。一つのフィードの実装に3~4か月かける代わりに、Ab Initioのアプローチは2~3週間、場合によっては数日で済みました。Ab Initioはこのアプローチをメタデータ駆動ウェアハウス(MDW)の構築と呼んでいます。

MDWとは、再利用可能なAb Initio®ベースのアプリケーションの集合で、基本的にソースファイルから統合EDWモデルへデータを書き込み処理するものです。これには、複雑なフィード処理のすべてが含まれます。ファイルの確認、データの補完、フィルタリング、検証、クレンジング、キーの管理、履歴管理、集計、マッピング、アーカイブ、リカバリ、モデルのロードなど、一般に手作業で構築されるものも含まれています。各EDW作業のそれぞれは抽象化され、メタデータを与えれば動作するように準備されます。すなわち、「関連メタデータを定義(変更)するだけ」で、同じテンプレートを使用してさまざまに異なるフィードを構築できるようにできています。

考え方として、MDWでは“まず始めに”アナリストがフィード処理を指定してテストします。大抵の場合は、開発者を参加させることは“まったく”必要ありません。このアプローチは、メタデータを定義することでシステムを開発していくメタデータ駆動の手法であるといえます。このメタデータは、ターゲットデータモデル、ファイル形式、キー、マッピングルールなど、アナリストが通常、文書で指定する必要のあるメタデータと同じです。文書に記述して開発チームに渡す代わりに、アナリストはMDWを使用してメタデータを“直接”入力し、生成されるアプリケーションを“すぐに”実際のデータで実行してテストします。長い時間のかかる開発やテストサイクルは必要ありません。このため、時間は大幅に短縮され、結果として得られるシステムの品質は、多くの人手を介するよりも数段優れたものになります。

Ab Initioテクノロジはこのアプローチをサポートするように“始めから”設計されています。ユーザーの観点から見ると、MDWの構築時からコスト削減が始まり、恩恵は今も続いています。たとえば、入力されたメタデータはすべてEnterprise Meta>Environment®(EME®)と呼ばれるAb Initioのメタデータリポジトリで保持されます。このリポジトリは、バージョン管理、データ系譜、影響分析、データ品質、アクセスセキュリティなど、必要な管理機能を提供します。EMEにより、経営者はシステムを俯瞰して見ることができます。EMEがなければ、それは無理でした。レポート内のフィールドがどのように計算されているかを知り、運用システムまで遡って追跡することができます。データがシステム内でどのように伝播されたかもすぐにわかります。この情報は、監査担当者や保守作業の予測に必要です。また、データの品質、および品質が下流システムに与える影響についての情報も得ることができます。つまり、経営者は、費用をかけて構築したにも関わらず、中身が見えない“ブラックボックス”だったシステムについて、ようやく理解できるようになったというわけです。

Ab InitioはMDWの構築について多くの顧客をサポートしてきました。Ab Initioが構築したMDWは顧客固有のさまざまなニーズを満たすことができましたし、その処理には再現性があり、予め期待された結果を導くことができたのです。

English
Français
Español
Deutsch
简体中文
言語:
日本語