DRIブログ

半構造化データとは何か?

2018/09/20 10:58:23 / by 京角 友恵

EDW(Enterprise Data World)では半構造化データをどう管理・活用するかが多く語られていました。それらのトピックも今後触れていきたいと思いますが、本ブログではその前段として『半構造化データとは何か?』に触れたいと思います。『半構造化データ』とはどんなもので、構造化データや非構造化データとは何が違うのでしょうか?

まず構造化データ(Structured Data)の特徴を挙げてみます。構造化データはあらかじめデータを管理する構造を決めて、その構造に合わせてデータを格納していく「Schema-on-Write」の方式を取ります。各企業など、特定のスコープ内のデータを管理するために用いられ、RDBMSで実装されます。

次に非構造化データ(Unstructured Data)の特徴を挙げてみます。非構造化データの特徴はビッグデータの特徴を表す「3V」に表れています。これは①Volume(量が多い)、②Velocity(発生・更新頻度が高い)、③Variety(データや発生場所の種類が多い)の「3つの"V"」です。データの形式や内容に決まりはなく、テキストや画像・音声など、あらゆる形式を取り得ます。そしてインターネットなどを経由して集められる、あらゆるデータを含みます。
非構造化データの量は急激に増加し続けており、それらを集めることも容易になってきています。ただし、非構造化データをただ集めるだけでは使うことはできません。その信頼性を担保し、内容を把握し、使える形に変換する必要があります。集めただけでは使えない非構造化データを使える形にするために、まず非構造化データを半構造化する必要があります。

半構造化データ(Semi-Structured Data)は非構造化データに「フレキシブルな構造」を与えたものと定義されます。「フレキシブルな構造」はNoSQLとも呼ばれ、グラフ型・キーバリュー型・ドキュメント型・カラム型の4つに分類されます。これらはいずれもデータ+名前(タグ)の組み合わせでデータを管理します。
非構造化データに「フレキシブルな構造」を与えた結果である半構造化データは、構造化データと対称的な特徴を持ちます。集めたデータに合わせて名前(タグ)をつけて保存し、そのデータを利用したいときに利用したい形のデータ構造に当てはめる、Schema-on-Readの方式を取ります。非構造化データの特徴でもある多種多様なデータを取り扱うことができ、NoSQLデータベースで実装されます。

いま構造化データと非構造化データをどう組み合わせて、どう活用していくかに注目が集まっています。その注目の表れからか、最近では、先述した「ビッグデータの特徴を表す3V」に「4つ目の"V":Value(価値)」と「5つ目の"V":Veracity(正確さ・信頼性)」が加わりました。

※4つ目の"V"と5つ目の"V"は明確に定まったものではなく所説あります。

急増する非構造化データを半構造化するということは、ビッグデータから「4つ目の"V":Value(価値)」を得るための第一歩だと思います。さらに「5つ目の"V":Veracity(正確さ・信頼性)」を達成するためには、構造化データと同様に、非構造化データと半構造化データに対してもその管理方法を考える必要があると思います。それができて初めてビッグデータの活用へとつながるのではないかと思います。

次のブログでは半構造化データに関するEDWのトピックをお伝えする予定です。

続きのブログはこちら

Topics: データマネジメント

京角 友恵

Written by 京角 友恵