DRIブログ

半構造化データのマクロレベルとミクロレベルの関連と注意点の考察 ~非構造化データの意味を定義する~

2018/11/20 11:47:15 / by 京角 友恵

前回のブログでは、非構造化データをマクロとミクロの2つグラフ構造で定義することについてお伝えしました。その中で、マクロレベルはデータの種類を表す「クラス」とその関係を表す「プロパティ」、ミクロレベルは特定の1つのものや文字列などのデータ表す「主語」「目的語」とその関係を表す「述語」を要素としていました。またマクロレベルのクラスは階層的に定義できるとお伝えしました。
https://jp.drinet.co.jp/blog/datamanagement/qcfixpdzmf

今回のブログでは、EDW(Enterprise Data World)でこれら2つのグラフ構造の関係がどう語られていたのかをお伝えします。

ミクロレベルのデータ(主語、目的語)を同種のグループでまとめるとマクロレベルのクラスになります。この時、データを適したクラスに所属させることで、そのデータが持つ意味を定義できます。また1つのデータを複数のクラスに所属させることで、データの意味をより論理的かつ正確に定義することができます。(図1)

zu

- 図1 -

 

データを複数のクラスに所属させることもできますし、どのクラスにも所属させないこともできます。ただしデータがどのクラスにも所属しない場合、そのデータの意味が理解できなくなってしまいます。そのため全てのデータを極力いずれかのクラスに所属させることが望ましいです。またデータが所属するクラスはそのデータの発生時に決まるのではなく、後追いで定義することも可能です。そのためグラフ構造の定義段階ではクラスのメンバーとなるデータは決まっておらず、データの発生後に順次メンバーがクラスに追加されていくことになります。

先述の通り、1つのデータを複数のクラスに所属させることができます。ではいくつのクラスに所属させれば、つまりデータに対する「意味」をどれだけ管理すれば十分なのでしょうか?

この問いに対する明確な答えはありません。非構造化データの意味を管理するために重要なことは、以下3点となります。

  1. 非構造化データを用いて実現したいことに応じた定義をすること
  2. データを使い始める前に全ての設計が完了していなくてもいいと認識すること
  3. それまでの作業を混乱させることなく新しい意味をネットワークとデータの両方に随時追加できること
半構造化データでは柔軟性や拡張性を重視する代わりに従来の構造化データが持っていた一意性や一貫性を犠牲にしていると言われています。また大量のデータを集めたのはいいけれど、うまく利活用できていないケースも頻繁に見られます。大量の非構造化データを柔軟性高く利活用するためには、データそのものだけではなく「データの意味」もまた、柔軟に管理する重要性が高まっていると感じました。

Topics: データマネジメント

京角 友恵

Written by 京角 友恵