デジタル化が急速に進む今、企業にとってデータ活用は欠かせないものとなりました。データはビジネスの新たな可能性を広げ、業務効率化や顧客満足度向上に直結します。多くの企業はデータ活用を推進するために、データレイクやデータウェアハウスといったデータ活用基盤へのデータ集約を進めています。しかし、いざ「データ活用を始めよう!」と思っても、多くの企業が同じ壁にぶつかっているのをご存知ですか?
データカタログは「データの地図」
企業がデータ活用に乗り出す上で直面した大きな壁は、これまでは「そもそも使えるデータが手元にない」ことでした。そのため、多くの企業はデータ活用基盤を構築し、社内に散在していたデータを集約・整備することで、この壁を乗り越えてきました。
しかし、基盤が整備されてデータが集まった現在、企業は新たな壁に直面しています。それは、「データはたくさんあるけれど、そのデータが『何なのか』、『どこにあるのか』、『そのデータが本当に信用できるのか』、『データに関する問い合わせを誰にすればよいのか』、『どう使えばよいのか』が分からない」という課題です。データの定義や探し方、信頼性の判断、責任者の特定、そして活用するための知識不足など、データの「中身」に関する困りごとが顕在化しているのです。 こうした状況を解決し、データ活用を次のステージへ進める鍵となるものが「データカタログ」です。
データカタログは、単なるデータのリストではなく、企業内で保有する全てのデータのメタデータ(データが何かを説明するための情報)を一元的に管理するシステムです。 具体的には、データの発生源、定義、データの型・桁、更新頻度、オーナーシップ、品質情報、さらには他のデータとの関連性といった情報を紐付けて管理します。これにより、データ利用者(データアナリスト、データサイエンティスト、業務部門担当者など)は、必要なデータを素早く検索し、その背景情報や信頼性を詳細に理解した上でデータ活用を進めることができます。
このブログでは、データ利用者が直面している新たな壁はどのようなものか、データカタログでどう解決するかを解説していきます。
データが見つからない!データ活用を阻む3つのパターン
私たちは、これまで多くの企業様からデータ活用に関するご相談を受けてきました。その中で、データ活用基盤にデータは集めたものの、活用できていない代表的な3パターンを紹介します。
パターン①
欲しいデータがデータ活用基盤の「どこにあるか」、「何という名前か」分からない
データ活用基盤にデータは集まっているはずなのに、いざ「あの情報が欲しい」と思っても、どこにあるのか見当もつかない、という経験はありませんか?データ活用基盤内のデータは、部署ごとに異なる名称で格納されていたり、システム上のデータ名とビジネス的なデータ名が一致していなかったりすると、特定のデータを探すだけで膨大な時間がかかります。結果、本来の分析や意思決定に着手する前に疲弊してしまうこともあります。
具体例
部署ごとに異なる名称で格納されているケースとしては、例えば、小売業で「顧客の購買行動データ」を探しているとします。マーケティング部門では「顧客購買履歴」、営業部門では「販売実績」、EC部門では「Webサイト行動データ」といった具合に、同じようなデータなのに部門ごとに異なる名前で基盤に格納されている、といったケースです。どのデータが本当に欲しい情報に当たるのか、一つ一つ確認する手間が発生してしまいます。
データカタログによる解決
データカタログがあれば、データ活用基盤内のあらゆるデータを横断的に検索できます。データの名称や意味、格納場所、担当者といった情報が整理されているため、キーワード検索で欲しいデータをすぐに見つけ出し、その詳細を確認することができます。今回は部署ごとに名称が異なるため、名称では目的のデータを探し出せない可能性があります。しかし、データカタログでは名称だけでなくデータの定義もキーワード検索の対象に含まれるため、「購買履歴」、「販売実績」など定義に書かれているであろうキーワードで検索することで、欲しいデータにたどり着くことができます。
パターン②
使えそうなデータはたくさんあるのに、どのデータを使ってよいか分からない
データ活用基盤にデータがあっても、信頼性やセキュリティの観点でどのデータを使っていいのか分からず、活用に踏み切れない時はありませんか?アイデアがあったとしても、それに使えそうなデータの品質や取り扱い方法などが不明確だとなかなか一歩を踏み出せません。
具体例
金融機関で、新規顧客向けに金融商品を提案したいとします。その際、顧客の属性データや過去の取引履歴などを使えばよさそうです。しかし、どのデータが最新で正確なのか、取り扱いにあたってどのような注意事項があるか(例:個人情報であれば、同意を得ている利用方法・目的はどういうものかなど)といった情報が不明確だった場合、仮に使えそうなデータが見つかったとしても、本当に使っていいのか迷ってしまう、あるいは確認に時間がかかってしまいます。
データカタログによる解決
データカタログを使えば、データ活用基盤内のデータ品質(例:値の登録率や更新頻度など)や機密情報の有無、取扱時の注意事項や遵守すべきルールなど情報をすぐに把握することができます。これにより、データ活用に利用すべきデータ、利用できるデータを発見しやすくなります。
パターン③
データ活用基盤内のデータの『流れ』や『加工プロセス』が見えない
データ活用基盤内のデータが「どこから来て、どんな加工が施され、最終的にどこで使われているのか」、その「流れ」や「来歴」が見えずに困っていませんか? 例えば、データ活用基盤にある売上データが、どのシステムから取り込まれ、どのような集計・変換を経て、最終的にどのダッシュボードに反映されているのか分からないといった場合です。
具体例
マーケティング部門で施策ごとの費用対効果を算出し、そのデータをダッシュボードで表示しているとします。しかし、仮に、費用対効果についてそれらしい指標を出せたとしても、それぞれの指標がどう計算されたか不明確な場合があります。 例えば、費用対効果の分析には「売上」が必要となりますが、この指標1つとっても様々な捉え方ができます(例:広告からの直接的な売上だけなのか、あるいは間接的な売上も含まれているのか、など)。このような状況では、ダッシュボードに表示されるデータを信じてよいのか分かりません。そのままデータを使えば、重要な意思決定を誤るリスクがあります。
データカタログによる解決
データカタログは「データリネージ」(=データの系譜)機能で、個々のデータが最終的な指標になるまでの集計や加工プロセスを可視化します。これにより、算出ロジックがブラックボックス化されていた指標の正当性を誰もが理解できるようになり、自信を持ってデータに基づいた意思決定を下すことが可能になります。
まとめ:データ活用の次の一歩へ
データ活用基盤にデータを集約するだけでは、その価値を最大限に引き出すことはできません。データカタログは、データ活用基盤内のデータ資産を可視化し、企業のデータ駆動型経営を強力に推進するために不可欠なツールです。今回ご紹介したようなデータ活用の課題に直面しているのなら、ぜひデータカタログの活用をご検討ください。
参考文献
(1) データカタログ、いま米国で注目される3つの理由(https://jp.drinet.co.jp/blog/datamanagement/data-catalog-trend)
メタデータ管理の最適解!
Quollio Data Intelligence Cloud によるデータインテリジェンス
データ総研は、メタデータ管理基盤には「検索性」「信頼性」「統治性」の3つが不可欠であり、「メタデータを1か所に集約して管理できる環境」が理想的であると考えます。
これらを実現するのが Quollio Data Intelligence Cloud です。