DRIブログ

データカタログ、いま米国で注目される3つの理由

2019/05/27 0:00:00 / by 仲程 隆顕

3月にボストンで開催されたEDW(Enterprise Data World)に参加してきました。

 

今回最も注目を集めていたのは、メタデータマネジメントやデータカタログに関する講演でした。2018年ガートナー社のメタデータ管理ソリューション(データカタログ含む)のマジッククアドラントでリーダーに位置付けられた9社のうち、その中でも特に優秀な3社がEDWにブースを出展していました。

さらに、彼らのブースや講演には、ユーザ企業の担当者が殺到し、熱心に質問していました。

EDW2019_セミナ風景1<メタデータマネジメントルールを提供しているoctopai社のセッションの様子>

データカタログは、今アメリカのユーザ企業が最も高い関心を持っているトピックの1つです。日本でも言葉を聞く機会は増えてきましたが、すでにデータカタログツールを使っている企業や、自分たちでデータカタログを整備したという企業はまだ少ないのではないでしょうか。
「そもそもデータカタログって何?」という人もいると思います。

  • データカタログとは何なのか?
  • なぜデータカタログがアメリカで注目を集めているのか?

今回はこれらの疑問について答えたいと思います。



データカタログとは何なのか?

データカタログとは、企業内で保有する全データの辞書です。データの発生元やデータ定義、導出方法など、ほかにも様々なデータに関する情報を管理します。メタデータと同義で使用されることが多く、両者の違いは明確に定義されているわけではありません。EDWのセッションなどでは、以下のように使い分けられていました。

メタデータ管理の対象となるのは、企業のRDBMSや業務システムで扱う構造化データがメイン。一方、データカタログは、構造化データに加え、非構造化データ(画像、SNS投稿、IoT機器からのセンサー情報など)が管理の対象に含まれる。つまり、データカタログの方がより多くのデータについて管理します。

なぜデータカタログがアメリカで注目を集めているのか?

データカタログのコンセプト自体は昔からありました。メタデータ管理の重要性についても、古くから言われていますが、なかなか実践されてこなかったのが現実です。そんな中、ここ数年の間に多くの米国企業がデータカタログツールを導入、または、導入の検討をするようになったのは、以下3つの理由によるものだと考えられます。

  1.  データレイクの登場

    データレイクとは、あらゆる構造化データと非構造化データを保管する一元化されたリポジトリです。様々な形式のデータをそのままの形で保存するため、構造化されていません。企業の至る所からやってくるデータを一カ所で管理し、任意に利用することがデータレイクの目的です。しかし、データレイクにはデメリットもあります。データ構造を事前に決めない特性により、データの意味やどんなデータが入っているのか分からなくなるという問題です。この問題を解決するために、データカタログが必要です。これが第1の理由です。

  2.  データ活用のための整備

    アメリカでは競合と差別化を図るため、データを分析・活用し、ビジネスの利益につなげようとする動きが活発です。そのような仕事を担うのがデータサイエンティストたちです。データサイエンティストといえばスマートな印象を受けるかもしれませんが、データサイエンティストは、実に50%~80%の時間を分析のためのデータ収集や準備などの単純作業に費やしている、という調査結果があります。(New York Times)データカタログを整備することにより、データサイエンティストがより多くの時間を分析や研究に費やすことが可能になります。これが第2の理由です。

  3.  機械学習の発達による自動化精度の向上

    機械学習の発達により、データカタログの整備が高精度で自動化されるようになりました。非構造化データの自動分類やデータ検索時に正確な名称を覚えていなくても適切なものを提案してくれる機能など様々なことを自動でやってくれます。昔からあったデータカタログのコンセプトですが、手動で実現するには時間とコストが掛かり過ぎました。技術の進歩により、ビジネスで実用可能なレベルに達したことが第3の理由です。

おわりに

構造・非構造化データを分析し、ビジネスチャンスを見出す動きは、今後日本でもさらに活発になるでしょう。それに伴い、日本でのデータカタログの普及も必然であると考えています。近い将来、日本語対応した高性能自動データカタログツールができることを願い、今我々にできるのは機械がやってくれないデータ定義や用語定義の全社単位での統合作業ではないでしょうか。

 

新規CTA

Topics: データマネジメント

仲程 隆顕

Written by 仲程 隆顕