データプレパレーションというキーワードをご存知でしょうか?
ビジネスユーザー部門でビッグデータやBI、AIツールの活用が広がっています。これらを活用するためにはデータの加工や整形といった事前準備が大事です。このデータの事前準備をデータプレパレーションといいます。
本ブログでは、データプレパレーションの概要や、データプレパレーションを効率化するツールをご紹介します。
目次
1. データ活用業務の80%は事前準備?データプレパレーションの重要性
5-6. 処理順番を入れ替えて、縦結合したデータに全操作を適用させる
1. データ活用業務の80%は事前準備?データプレパレーションの重要性
セルフ型BI、AIツールが次々に世に出てきており、徐々に活用が広がっています。こうしたBI、AIツールは、過去の一部のエンジニアしか使えないような難解なものではなくなり、使い方さえ覚えてしまえば、一般のビジネスユーザーでも比較的容易に活用することができます。
社内に存在する様々なデータを可視化、ビジュアライズし、現状を把握したり、データから課題を導き出すのに非常に有効なBI。データを元に未来を予測したり、確率を導き出したりするAI・マシンラーニング。どちらも有効活用することで、ビジネスにおける意思決定スピードを格段に上げるといわれています。
しかし、BIやAIにデータを投入するためには、入れるデータをきれいに加工・整形しておく必要があります。その作業が『データプレパレーション』です。実はデータプレパレーションはかなり時間のかかる面倒な工程なのです。ある調査によるとデータサイエンティストの業務の50~80%はデータ準備(データプレパレーション)であると言われています。(参考:The New York Times https://www.nytimes.com/2014/08/18/technology/for-big-data-scientists-hurdle-to-insights-is-janitor-work.html)
2.データ活用にはデータプレパレーションが必要な理由
では、なぜ多くの時間をかけてデータプレパレーションをする必要があるのでしょうか?それは、投入したいデータが、そのままの形式では活用に適さない場合があるからです。以下に、そのような例を示します。みなさまの社内のデータも、こんな風になっていないでしょうか?
例1:カラム名が統一されていない複数のデータ
あるデータに年齢というカラムがあり、他のデータでは歳というカラム名になっていて、どちらにも同じように年齢データが入っているが、カラム名が違うので、カラム名をキーにした紐付けができない。
例2:カラム内の値の記入方法が異なる
例1同様、年齢を例にすると、あるデータには25歳、32歳、47歳など、実際の年齢が入っている。もう一方のデータには20代、30代、40代と年代で記載されており、そのまま統合できない。
例3:カラムが複数に分かれている
住所を記載しているカラムがあり、あるデータでは「東京都中央区人形町3-3-6」のように1カラムにすべて記載、別のデータでは「東京都」「中央区」「人形町3-3-6」などのように、都道府県・市区町村などでカラムが分割されている。
例4:データが一意になっていない
例えばECサイトの注文データのようなものの場合、注文者(=顧客)のIDは一つでも、そのユーザーが何度も買い物をしたり、いくつもの商品を購入したりしていると、注文レコードはすべて分割されているケースがほとんどです。そうなると、顧客IDごとで合計購入金額をひとまとめにし、ロイヤルカスタマーを抽出することや、RFM分析の元になるデータを作るのは困難です。
3. 今までのデータプレパレーション方法
上記のような例はほんの一部です。他にも持っているデータをそのままBIやAIで使えないというケースは多々あります。では、どうやってそれを解決するのでしょうか?
解決策1:SQLやPythonなどの言語を使ってデータプレパレーションを行う
持っているデータに対してSQLやPythonなどのプログラミング言語を使って処理する方法があります。こうした統計やデータ処理シーンで使われるプログラミング言語を自由に扱えるエンジニアにとってはそれほどハードルの高いものではないかもしれません。しかし、逆に言うとこうした言語を覚えなければ処理できないという課題があります。
解決策2:ETLツールを活用してデータプレパレーションを行う
基幹システムの移行や他システムとの連携開発などを行う際、各システム間のデータを移行するために使われたのがETLです(ETLは「Extract(抽出)」「Transform (変換、加工)」「Load (書き出し)」の略)。
ETLツールにはコーディング(プログラム言語を使って記述すること)が必要なものと、ノンコーディング(プログラミング不要)のものがあります。
コーディングが必要な場合、やはりプログラミング言語の記述ができることが必須です。
また、ノンコーディング型の場合、多くのETLツールではデータの加工手順をフローチャートのようにGUIベースで記述する必要があります。フローチャートを記述するには、どのデータにどんな内容がどう入っているかを事前に把握する必要があり、加工するすべてのデータの中身に精通している必要があります。
4. これからのデータプレパレーションに求められるもの
上記の2つ解決策は、どちらもいわゆるエンジニア向けのデータプレパレーション手法といえます。
しかし、昨今盛り上がっているBIやAIを活用するのは主にビジネスユーザー部門です。経営企画やマーケティング部門、営業部門が自社に蓄積されたデータを活用して、戦略立案や課題抽出、意思決定の補助を行うために活用しているケースがほとんどです。
しかし、こうしたビジネス部門にはSQLやPythonなどの開発言語を扱える人材やETLツールに精通している人材はほとんどいません。こうした状況でBIやAIを活用するためには、常にビジネス部門から情報システム部門へデータ抽出を依頼し、システム部門が分析用データの元を作成するというやりとりが発生します。月次レポートなどの場合はそれでも何とかなるかもしれませんが、やはりスピーディにビジネスのPDCAを回すためには、即座に必要なデータを取り出し、活用できる環境を作らなくてはいけません。
そのために必要になるのがビジネス現場で使えるデータプレパレーションツールなのです。
5. データプレパレーションツールの機能
データプレップは、「ビジネスユーザーでも簡単に操作できる」、「加工ルールが可視化される」、「一度作った加工ルールを再利用できる」、「データへのアクセス権や編集権などのルール設定ができる」、「大きな初期投資が不要」という観点でサービス開発が行われ、2020年3月にSaaS型でリリースされました。
(データプレップはデータドック社がサービス開発し、2021年2月にデータ総研がデータドック社からデータプレパレーション事業の地位譲渡にあわせて販売を開始しました。)
ここからは画面を見ながら基本的な機能を5.1~5.9まで順にご紹介します。
5-1. データインポート
ライブラリという画面にデータをインポートします。インポートファイルの形式はCSV、XLS、JSON、XMLなど複数フォーマットに対応しています。また、APIコネクターを使って他システムと連携させることも可能です。
5-2. 各カラム内のデータ確認
各カラムの中の値を確認し、同じ値がどのくらい入っているかなども簡単に確認できます。また、カラム内の値の中にスペースなどが含まれていないか、数値形式のデータが入っているカラムの最大値と最小値なども把握できます。
5-3. カラムごとのデータの加工
5-3-1. スペースの削除
値の最初や最後についている場合は、前後の空白を削除、文字列内にスペースがあれば置換機能を使って不要なスペースを削除します。
5-3-2. データの分割
ひとつのカラムに識別子が特定できる形で複数の情報が入っている場合は、その識別子をキーにしてデータを分割することが可能です。
5-3-3. 日本語表記揺れの改修
社名などの入っているカラムでは、株式会社、(株)、㈱、記載なしなどの表記揺れが発生していることが少なくありません。正規表現のマスターデータなどがあればそれとマッチさせて表記を統一することももちろん可能ですが、日本語で表記された値をクラスタリングする機能があり、この機能を使うことで概ねの社名表記揺れは回収できます。
5-4. データの横結合
元データに対して、データを横に追加・付与するには、通常同一のカラム名をキーにしますが、本ツールではカラム名が一致しなくても、キーになるカラムをシステムがデータの中身を見ながらサジェストしてくれます。また、1カラム対2カラム、Nカラム:Nカラムなど複数のカラムをつなげてみることでキーになる軸を探し出すことも可能です。結合させる際にも、全データを残す、元データは全部残し、つないだデータは結合させられるものだけ残すなど、1クリックでデータ作成方法を選択できます。
5-5. データの縦結合
同じ形式のデータであれば簡単に縦に結合することが可能です。ただ、5-3. ~5-4. の作業をした後に縦結合しようとすると、元データに対して行った処理が適用されていませんので、空白カラムとして認識されたりします。他のツールでは通常、縦結合しようとするデータに対しても同じ処理を行った後に結合処理を行いますが、本ツールではいったん無視して結合します。
5-6. 処理順番を入れ替えて、縦結合したデータに全操作を適用させる
ステップというコマンドを開くと、今まで行った処理がすべて表示されます。その処理手順を編集機能を使って入れ替えることができます。5-5.で行った縦結合を最初に実施したように順番を入れ替えることで5-3. ~5-4.で実施した処理が後から追加したデータにも適用されます。
5-7. データの公開
出来上がったデータをライブラリに公開し、そこからエクスポートすることで、加工済みデータを手に入れることができます。
6. まとめ
このように、実際に加工したいデータを見ながら、様々な処理がGUIベースで行え、かつ、その処理をしたら値がどう変化するかを画面で確認しながらデータ加工ができるツールはたくさんあるわけではありません。こうしたデータプレパレーション専用ツールを使うことで、データ活用がさらに進んでいきます。
みなさまのデータ活用を効率的に行うためにも、『データプレップ』の活用をご検討ください。
参考
データプレップの紹介ページ
データプレップの紹介ページでは、データプレップの主な機能を紹介しています。
また、マーケティング部門、経営企画部門、生産ライン部門、AI/BIサービス提供会社商品企画部門でのデータプレップの具体的な活用例も紹介しております。