DRIブログ

3分でわかるデータマネジメント【データ統合と相互運用性】

2020/02/26 0:00:00 / by 佐藤 健司

はじめに

今回の「3分間で分かるデータマネジメント」ブログのテーマは「データ統合と相互運用性」です。DMBOK2では新しい知識領域として追加されており、その背景にはデータ駆動型経営へ転換するために、構造化/非構造化データを問わず様々な種類のデータを統合し、そこから価値を引き出すことが重視されている状況があるようです。

本ブログの内容をより詳しく知りたい方は、弊社で定期的に開催しているデータHUBセミナをご受講ください。
新規CTA

 

想定読者層

  • システム間I/Fの改修工数を削減したいと考えている方
  • 既存システムから、分析・利活用したいデータを取り出すのに苦労している方

 

データ統合と相互運用性とは?

データ統合と相互運用性について、DMBOK2では「データストア/アプリケーション/組織などの内部とそれらの相互間で実行される、データの移動と統合に関するプロセスを表している」と定義しています。データの統合はデータを(物理的、仮想的を問わず)一貫した形式に統一することであり、データの相互運用性とは様々なシステムがどの程度情報を連携できるかを表します。

単にデータHUBシステムを作れば良いという事ではなく、全社視点で統合されたデータ設計に基づくフォーマットを用意して、周辺システムへ安全にデータを提供する必要があるようです。

一般的にデータをアプリケーション間で連携する際には、抽出(Extract)・変換(Transform)・取込(Load)が行われます。ソース(連携元)システムから必要なデータを抽出し、コードやフォーマットを変換した上で、ターゲット(連携先)となるシステム/データストアに取り込みます。これらの頭文字を取ってETLと呼ばれることが多く、製品カテゴリの1つとして存在しています。

その他にもEAIや仮想データ統合などの、システム間連携をサポートする製品カテゴリはいくつか存在しますが、それはレイテンシ許容範囲の違いに拠ります。レイテンシとは「ソースシステムで生成されたデータが、ターゲットシステムで利用可能になるまでの時間の差」を指します。レイテンシは(一般的に)連携データ量と相反する関係にありますので、レイテンシの異なる全てのI/Fを単一の基盤上で扱おうとすると、他のデータ量の多いI/F処理の影響を受けて、「10分間隔で起動するI/F処理が10分以内に終了せず、次回処理が開始できない」などの事象が発生してしまいますので、注意が必要です。

最近では、アジャイル化/DataOpsの傾向が強まっており、まずターゲットシステム上にデータを取り込んで(生データとして実体化して)から、必要に応じて変換を行なうアプローチ(ELTと呼ばれます)も増えています。(DataOpsに関しては、別の機会に考察をしてみたいと思います。)

 

なぜデータ統合と相互運用性の向上に取り組む必要があるのか?

DMBOK2ではデータ統合と相互運用性の活動により、人とシステムが必要とするフォーマットと時間枠でデータを提供し、モデルとI/Fを共有することでソリューション管理コストと複雑さを軽減することを目指すとしています。

データ相互運用性の複雑さとサポートコストを削減するためには、システム間接続方式とI/Fフォーマットの標準化が必要です。つまり、I/Fデータを発行/購読する全てのシステムは中央のHUBシステムのみと連携し、ハブシステムに定義した共通のメッセージフォーマットを介してデータ変換を行なう必要があります。DMBOK2の中には、「100を超えるアプリケーションシステム環境でデータ連携を管理する場合には、HUBシステム構築と共通メッセージフォーマットによる連携が不可欠である」と記されています。

100を超えるシステム間の連携において、共通メッセージフォーマットを用いたHUBシステム導入が不可欠である理由とは、いったい何でしょうか?

これまでは基幹系システムを中心に周辺システムとのI/Fをファイル転送方式で構築してきた企業においても、昨今ではベンダーからアプリケーションを購入するケースが増えています。その場合、基幹系システムのデータ構造だけを参照してシステム間連携処理を開発する訳にはいかなくなります。基幹系システムとその外付けシステムだけで成り立つ世界ではなく、SFAなどの別の思想を持ったシステムが企業情報システムに参加してきます。そのような状況下で、ポイント・ツー・ポイントによる開発を継続し、数千から数百万のI/Fを管理し続けられる組織はそれ程多くないと思われます。

そのことに気づいた組織は、HUBシステム導入を通してI/F管理の複雑さを軽減することによって、そこに従事していたサポート要員を(デジタル化対応等の)他の優先事項へ効率的に配分できるようになります。

 

どのようにデータ統合と相互運用性の向上を進めるのか?

DMBOK2では、計画と分析→設計→開発→実装と監視 の4つのアクティビティが定義されています。4つのアクティビティの詳細については、DMBOK2の内容は様々なデータ連携モデルやソリューションを網羅しており、やや抽象度が高くなっておりますので、データHUB(パブリッシュ・サブスクライブモデル)に限定して、(計画と分析、設計を中心とした)筆者経験を基にご説明したいと思います。

  1. 計画と分析
    プロジェクト企画を進める上では、投資対効果を明確にすることが求められます。データ相互運用性のサポートコストが、中長期的にどの程度削減できるのかを定量化する必要があります。I/F開発コストと保守運用コスト(影響範囲調査や日程・要件調整を含む)に分けて、整理すると良いと思います。また、他のプロジェクト(SFA導入など)と関連付けて、効果を訴求することも求められます。

    また、企業内に存在するI/F一覧や定義書の収集も大仕事になります。I/F一覧フォーマットの統一から始まり、システム単位にI/F情報を収集し、データ種別に整理する所までは済ませておきたいところです。その上で、全社システムを範囲として大まかなシステム間連携図を作成しておくことで、次工程をスムーズに開始することが可能になります。

  2. 設計
    まず、データHUBシステムを経由するI/Fを見極め、データHUBを含むシステム間連携図をデータ種(マスタであれば顧客や品目、トランザクションであれば購買・製造・販売などのレベル)で作成します。どのデータやシステムをデータHUB経由で連携させるかについては、大まかには「全社で共有すべきデータに絞って、HUBを経由させる」という事になります。

    続いて、データHUB内に保持するデータ構造を設計します。システム間連携図を作成する過程で、データ種・エンティティ別の発生源システムが明確になっているはずですので、発生源システムにおけるデータ構造を基本としてデータ視点課題を解決し、全社標準に相応しいデータ構造をデザインします。
    データHUBを経由するI/F一覧の作成も忘れずに行います。(発行側システムとデータHUB,データHUBと購読側システムに分けてI/Fを明確にします。)

  3. 開発
    I/F設計は導入するETL製品を意識しつつ、IN/OUTのデータストア間関係を1頁で表すような図と、IN/OUT間のデータ項目マッピング表(変換ルール含)をセットで作成します。

  4. 実装と監視
    ETL製品にI/Fが実装されるのを管理するのと並行して、データ辞書を構築したい所です。その品質を担保するデータ管理組織立ち上げも重要です。

 

おわりに

「SFAをクラウドで立ち上げるのに合わせて、データHUBも導入したい」というご要望をお伺いするケースが増えています。ソフトウェアベンダーから提供されるアプリケーションを導入するためにはデータ構造・意味の異なる既存システムとのデータ連携が必要になります。SFA導入コンサルティングにおいては「SFAに合ったデータを周辺システムから取り出すのは、責任範疇外である」とされるケースも多いようですので、ベンダーに依存せず、企業が主体となってデータを統合し、データHUBを経由した周辺システムとのデータ連携に取り組む必要があります。

今回は「データ統合と相互運用性」にテーマを絞り込んでご紹介しましたが、企業のデジタル化を進める上では情報の利活用により新たなビジネスチャンスを得る必要があり、そのためには利活用したい情報・データをしっかりマネジメントし続けることが不可欠です。今後もブログを通して、企業のデジタル化を進めるためのデータマネジメントをわかりやすく伝えていきたいと考えています。

 

Topics: データマネジメント

佐藤 健司

Written by 佐藤 健司