• ホーム
  • ブログ
  • 3分でわかるデータマネジメント【メタデータ管理】

DRIブログ

3分でわかるデータマネジメント【メタデータ管理】

MDM(マスターデータ管理) データマネジメント DMBOK2

はじめに

データサイエンスの重要性に気付き、取り組み始めている企業が増えています。また、データセキュリティに取り組むことでリスクを回避する必要があると考える企業が増えています。
データサイエンスとデータセキュリティという一見するとそれぞれ独立した分野のようですが、両分野にて成果を上げるには、共通して取り組むべきことがあります。
それが今回のテーマである「メタデータ管理」です。

今回はそんなメタデータ管理について、そもそもメタデータとは何なのかという基本的な内容から、実践的なメタデータ管理の進め方について解説させていただきます。
(”そもそも記事タイトルにある「データマネジメント」とは?” という方は、こちらの記事『データマネジメントとは何か』もご覧ください。)


想定読者層

本記事は、以下の方々を想定して作成しております。
  • メタデータとは何か?をかいつまんで知りたい方
  • メタデータ管理を社内で進めたいが、何から始めたらよいかわからない方

 

メタデータとは?

メタデータとは一言でいうと「データに関するデータ」です。これだけだと分かりにくいので例を使って解説します(図1)。

図1.データに対するメタデータの例

 

たとえば、「サピエンス全史 上」という書籍があります。この書籍を「データ」ととらえると、ジャンル、著者名、タイトルなどの書籍に関するデータが「メタデータ」に該当します。

別の例を挙げてみます。「勤務実績報告書.xlsx」というエクセルファイルを「データ」と捉えると、そのファイルの名称、作成された年月日、ファイルが格納されている場所などのエクセルファイルに関するデータが「メタデータ」になります。

次に、皆様の企業でも管理しているであろう、社員を管理する「社員番号」というデータ項目を例にします。「社員番号」というデータ項目を「データ」ととらえると、そのデータ項目の名称、定義、データ型、桁数などのデータ項目に関するデータが「メタデータ」に該当します。

メタデータとはどのようなものかご理解いただけたでしょうか?

ちなみにデータは「構造化データ」と「非構造化データ」に分類することができます。構造化データはデータの内容や形式が定められており、RDBMSで実装されます。一方、非構造化データは内容や形式に決まりが無く、あらゆるデータが当てはまります。映像、音声、テキストデータなども非構造化データに含まれます。

(構造化データ、非構造化データの詳細は『半構造化データとは何か?』をご覧ください。)

今回の例でいうと、「社員番号」が構造化データで、「サピエンス全史 上」と「勤務実績報告書.xlsx」が非構造化データになります。データ分析から有益な成果を得るには、構造化データのメタデータ管理も大切ですが、それ以上に非構造化データのメタデータ管理が重要になります。非構造化データをどんなにたくさん集め、データレイクに取り込んだとしても、メタデータを付与してあげないと、データ活用のためには使えません。メタデータが無いと、後になって欲しいデータにすぐにアクセスすることができないからです。

 

メタデータの種類

続いてメタデータの種類についてご説明します。メタデータに該当する情報は多岐にわたります。DMBOK2ではメタデータを3つに分類し、データマネジメントの観点から企業が管理すべきメタデータの具体例を紹介しています(図2)。

図2.メタデータの種類

 

1. ビジネスメタデータ

ITから独立した、業務に関するメタデータです。

たとえばある小売業者の場合、商品単価の計算式は定価、1回の受注数量、シーズン、顧客ランクをもとに算出する決まりになっています。このような業務上の決まり事がビジネスメタデータになります。

エンティティ、属性に関する名称、定義や属性のデータ型、その他プロパティ、値域、導出方法などが含まれます。

)
・テーブル、カラムの定義と説明
・業務ルール、変換ルール、計算方法、および導出方法

2. テクニカルメタデータ

ITに関する物理的なメタデータです。

データの技術的詳細、データを格納するシステム、およびシステム内やシステム間でテクニカルメタデータを移動するプロセスなどが含まれます。

)
・カラムのプロパティ
・アクセス権

 

3. オペレーショナルメタデータ

システム運用の過程で生成されるメタデータです。

データの処理とアクセスの詳細が含まれます。

)
・バッチプログラムのジョブ実行ログ
・データの抽出とその結果などの履歴

 

メタデータを管理するメリットとは?

メタデータ管理のメリットは大きく3つの観点に分けられます。

1. データ活用

データオーナーやデータ定義をメタデータとして管理することにより、データ利用者とIT担当者間のコミュニケーションの時間を大幅に削減できます。もしメタデータが管理されていない場合、データの内容や意味がデータ利用者に分からない状態になります。それにより、データ利用の度にIT担当者に確認することになってしまうので、莫大なコミュニケーションコストがかかってしまいます。一方、メタデータが管理されていれば、それらの問合せにかかっていた時間を短縮できます。この結果、今までデータ活用のための調査・準備に費やしていた時間をデータ分析に費やすことが可能になります。

 

2. データセキュリティ

データの更新日やアクセス権、データリネージ(データの流れ)を管理することで、データ漏洩のリスクを抑え、データが不適切な用途で利用されないように監視することができます。

また、近年は法整備が進み、個人情報が厳密に管理されることが求められています。そのため、個人データを特定する区分やフラグをメタデータとして管理することで、適切なセキュリティレベルで管理することを可能にします。

 

3. システム開発・運用・保守

業務ルール、データモデル、データ標準などを管理することで、システム開発のライフサイクル時間を短縮し、製品のサービスインを早めることができます。また、データリネージ(データの流れ)を管理することで、影響分析が正確になるため、システムの開発・運用・保守の面でも効果が期待できます。

 

メタデータ管理の手順

弊社のメタデータ管理の支援事例から、メタデータ管理を成功させるために意識すべきことが2点あることがわかりました。

①メタデータの種類は非常に多いため、最初からすべてを管理することはできない。
②メタデータ管理には時間がかかる。(特にデータ定義や業務ルールなどのメタデータは、業務担当者にヒアリングし、作成するため時間がかかります。)

 

この2点を押さえたうえで、メタデータ管理を実施する具体的な手順をご紹介します。

1. メタデータ戦略の策定

主要なステークホルダーへのインタビューを実施し、現在のメタデータ管理状況を評価します。次に、メタデータ管理の短期的(1)、長期的目標(3~5)を立て、目指すべきゴールを明確にします。そのゴールに向かって段階的に導入するための計画を立てます。

目標を明確にせず、とりあえずメタデータ整備を始めてしまうと、時間だけがかかってしまい、ステークホルダーが求めるメタデータを提供することが困難になります。結果、経営層からはメタデータ整備に多くの投資をしたのに、想定したリターンが得られなかったと判断されてしまうのです。

2. メタデータ要件の把握

短期的、長期的目標を達成するために必要なメタデータを把握します。たとえば、データセキュリティの観点で、GDPRに対応することが短期的目標であれば、データリネージやアクセス権などのメタデータを優先して用意する必要があります。また、データサイエンスの観点で、データ活用者が効率的にデータ分析を実施するための環境を整えることが長期的目標であれば、データ定義、データ標準、データ品質の規則、測定結果などを優先して用意する必要があります。データ定義などはしっかりと書こうとすると非常に時間がかかります。そのため、管理するメタデータの優先度付けが重要になります。

3. メタデータの作成

メタデータを作成します。メタデータの種類の中でもビジネスメタデータはIT担当者だけで作成するのは困難なので、業務担当者の協力が必要です。いかに業務担当者を巻き込めるかが、より有効なメタデータを作成するためのカギになります。

作成したメタデータについては品質検査を行い、問題があれば対処します。

 

おわりに

データサイエンスやデータセキュリティの観点から、本格的にメタデータ管理に取り組み始めている企業が増えていますが、メタデータ管理の進め方に悩まれているという声を多く聞きます。メタデータ管理についてお悩みがございましたらお気軽にご相談ください。

 

新規CTA

CTAタイトル

thu

CTAの説明入るCTAの説明入るCTAの説明入るCTAの説明入るCTAの説明入るCTAの説明入るCTAの説明入るCTAの説明入る