【イベントレポート】2020/5/22開催 Unyoo.jp Online道場 Vol.2 「ダッシュボード構築に欠かせないデータの取り方・つなぎ方のいろは(入門編)」



ダッシュボードをいざ構築しようと思っても、データの取得方法や結合方法でつまずかれている方は多いのではないでしょうか。イメージ通りのビジュアライズをするためには、大抵の場合いろいろデータを統合したり、組み合わせたりして作る必要があります。


第2回目となるOnline道場は、2020年5月22日に「ダッシュボード構築に欠かせないデータの取り方・つなぎ方のいろは(入門編)」として開催されました。同イベントではダッシュボード構築の一歩手前にあるデータ収集や、そのコツについて紹介しました。


本記事では同イベントの様子を、当日使用したスライドなどを交えながらレポートします。ウェビナーにご参加いただいた方は復習に利用していただき、当日ご参加いただけなかった方は本記事を参考にしていただけたら幸いです。


目次

・導入編
・実践編

 





登壇者の紹介



① アタラ合同会社 コンサルタント
宮崎 夏樹(パネリスト)


② アタラ合同会社 コンサルタント
海生 怜(パネリスト)


③ アタラ合同会社 コンサルタント
寺本 桂(ファシリテーター)




1. 導入編



導入編ではアタラ合同会社(以下、アタラ)の宮崎が、データの統合の必要性・データの取得方法・データの正規化について解説しました。

データ統合の必要性


そもそもなぜデータ統合が必要なのか。それは、昨今の企業では利用しているアプリケーションや媒体数が多く、各ツールそれぞれにデータがあるため、結果として企業が保有するデータは増えていく一方だからです。


なぜデータ収集・統合が必要か?

image:Unyoo.jp Online道場 Vol.1の講演資料より抜粋



ツールやデータが増えていく中で、手動でデータを取得してまとめるのは手間がかかります。それ以外にも、複数のデータを統合してデータに意味を持たせることで有益なインサイトを得られる場合もあります。例えば広告データと顧客データを統合した結果、30代女性で小学生の子供がいる人の反応が良かったということが分かれば、そのターゲットに絞ったクリエイティブを作成できるといった具合です。


また、異なるデータを掛け合わせて分析しないと相関や因果関係が分からないことも、データ統合が必要な理由です。テレビCMの出稿量とSNS上での商品名を含む投稿数や、ウェブ広告出稿量と店舗の売上といった因果関係を見つけるには、データ収集・統合が不可欠です。


なぜデータ収集・統合が必要か?

image:Unyoo.jp Online道場 Vol.2の講演資料より抜粋


このようなデータ統合を手動で行う際はエクセルで処理する事が多いもののデータ量次第で固まったり、また大量のCSVデータを手動で処理しようとするとミスがつきものです。

また、BI/ダッシュボードにデータが集まれば比較的簡単にさまざまなグラフを作り可視化できますが、良いダッシュボードを作成するには、コンテキスト化が必須だと宮崎は強調しました。


コンテキスト化とはシンプルな情報を単純にそのまま出すのではなく、目標や、市場、競合、過去データと比較することで、情報の立ち位置をはっきりさせようというものです。例えば単に売上が105万円だったという報告だけでは、次の打ち手が不明ですが、目標達成度は何%といった情報(コンテキスト)があることによって、数値が意味を持ちます。


コンテキスト化する

image:Unyoo.jp Online道場 Vol.2の講演資料より抜粋


コンテキスト化と同じく重要な要素として、アクショナブルであることが挙げられます。ただデータを視覚化するのではなく、それがアクションすべきかどうか判断できるように設計することで、ネクストアクションとして何をするべきなのかが分かりやすくなります。


アクショナブルに

image:Unyoo.jp Online道場 Vol.2の講演資料より抜粋




データ取得方法の種類について

BI、ダッシュボードでのデータ取得方法は大きく分けて3種類あります。

① エクセルやCSVなどのファイル
② コネクター接続
③ API接続


① エクセルやCSVなどのファイル

ファイルでのデータ取得で主に使われるのはエクセルやCSVです。コネクターやAPIがないツールでもCSVへのエクスポート機能はあります。まずはエクスポートしたデータを使ってダッシュボード化するのはよくあることです。


また、Googleデータポータルはエクセルファイルへの対応がなくCSVだけですが、TableauやDomoではエクセルにも対応しています。有料ツールと無料ツールの違いはデータ取得で使えるファイルの種類にも現れています。



ファイルでのデータ取得

image:Unyoo.jp Online道場 Vol.2の講演資料より抜粋


② コネクター接続

コネクター接続とはBI、ダッシュボードなど、データプラットフォームには必ず存在する、データへ接続するための機能です。例えばGoogleデータポータルにはGoogle 広告のコネクターがあるため簡単に接続し、データを取得できます。


コネクター接続(アプリケーション内包型)でのデータ取得

image:Unyoo.jp Online道場 Vol.2の講演資料より抜粋


コネクターは簡単に、かつ決まった時間に自動でデータ取得、更新できるのも良い点です。


③ API接続

API接続とは、コネクターにも使われている各アプリケーションからデータを取得する仕組みです。開発が必要なのでハードルが高く、手動でCSVをダウンロードして使うほうがAPI接続よりも安上がりな場合もあります。APIで提供されているデータはアプリケーション側の仕様に従うので、仕様が変わればデータ取得ができなくなり、継続的な維持管理のコストもかかります。


API接続でのデータ取得

image:Unyoo.jp Online道場 Vol.2の講演資料より抜粋




データ正規化のガイドライン

データ正規化とは、データの整合性確保と重複をなくすためのルールに基づいてデータを加工することです。マーケティングデータは特に正規化の問題が生じやすいと言われています。

データの正規化の重要性

image:Unyoo.jp Online道場 Vol.2の講演資料より抜粋


上図の表では、上側にある表は注文番号や発注元のセルが結合され、商品情報1、2の中にそれぞれ商品名、単価、数量、小計と同じ項目があります。表としては見やすいですが、プログラムが認識・処理するのには向いていないそうです。また、商品情報3が増えた場合どうするのかといった課題も抱えています。可視化したいデータがダッシュボードに取り込むのに適していないケースは少なくないので、データの正規化はデータ活用のためにはとても重要なステップだと言えそうです。



データのガイドライン

データのフォーマット

コネクターに対応してないデータを取り込む場合はCSV形式のデータが推奨されています。フォーマットを作る際は、以下の項目を意識することが重要です。

【CSVのフォーマット】

  1. カンマ区切り
  2. ヘッダ行有り
  3. 小計、合計行なし
  4. 日付、日時のフォーマットは西暦とし、漢字は含まない
  5. YYYY-MM-DDまたはYYYY-MM-DD hh:mm:ss

  6. 「”」「,」「\」などのESCAPE方法はエクセルに準拠
  7. 文字コードはUTF-8(BOM無し)
  8. ファイル名も英語(英数字、スペースなし、拡張子あり)を推奨


データの型

ワイド型データとは、横並びに項目がどんどん増えていくタイプのデータのことです。このようなデータは加工、統計分析、可視化には向いていません。

一方、ロング型データは、データの蓄積に対しては行がどんどん下に下に追加される形で縦に伸びていきます。データの蓄積には向いおり、集計もしやすいため、BIやダッシュボードに適した形式となります。


 
表記ゆれ

表記の揺れとは、同じ意味を持つ言葉について表記が混在している状態を示します。日本語は表現方法が豊富な関係で表記ゆれが起きやすいため、全角か半角かなど、細かい点に留意が必要です。


IDの推奨
日本語の表記の揺れ問題もあるため、データを一意で区別してほかのデータと突き合わせるような場合はID同士で行うことが推奨されます。



データを紐付けるキー
IDなどを使ってほかのデータと紐付ける場合、データ同士を紐付けるための項目をキーといいます。プライマリーキーやユニークキーなどと呼んだりもします。キーはデータ内で重複していないことが条件です。データベース見るときに、どれがプライマリーキーなのかを理解しておくと、そのデータベースへの理解が深まります。



以下の記事では、ここまでに紹介した「ビジュアライズのためのデータ正規化のガイドライン」について詳述しています。


『データビジュアライゼーション玉手箱』は、データビジュアライゼーションについて、さまざまなデータソースを取り上げたり、効果的な可視化・見える化の手法について...




2. 実践編

実践編では、「月の売上動向をグラフにしたいアタラさん」を例に挙げ、海生がデータの結合方法について紹介しました。


例題


image:Unyoo.jp Online道場 Vol.2の講演資料より抜粋


アタラさんの例では、「予算は月別で決まっているけど、実際の売上は毎日データを取得している」、「商品IDは予算のほうにも出るけど、商品名が分からないと分析しづらい」という問題があります。つまり、一つのグラフにしたいのにデータがばらばらで困ってしまったというわけです。




3つのテーブルについて

実践編では、予算、実績、商品マスタの3つのテーブルを組み合わせて1つの予実テーブルを作成しました。バラバラに存在した3つのデータを結合することで、月別かつ商品別に売上目標額と売上実績額のデータが取得できるようになります。ビジュアライズした際には商品IDだけではなく、名称でも識別が可能な状態になります。



image:Unyoo.jp Online道場 Vol.2の講演資料より抜粋


ここで浮上してくるのが、粒度の問題です。アタラさんの例では月別の売上目標を可視化したいのですが、実績テーブルでは日別データを取得しているため、実績テーブルに対して日別から月別への整形処理を行う必要があります。


日単位で入力されているデータを月単位に修正するためには、下図のオレンジと青の行が縦に積まれている状態のようにテーブル同士を縦積み(UNION)にする必要があります。ここまでが加工処理の第一ステージです。


「Union」で選択したテーブルを縦に結合する

image:Unyoo.jp Online道場 Vol.2の講演資料より抜粋



image:Unyoo.jp Online道場 Vol.2の講演資料より抜粋


予算テーブルと実績テーブルの粒度を合わせた後、いよいよ結合を行います。宮崎の話にもあった通り、結合にはキーが必要です。


予算テーブルに実績テーブルを紐付けるには、粒度を揃えた月頭日カラムと日付カラムがそれぞれキーになります。それに加えて商品IDもキーとして設定し結合します。続いてその商品IDに対して商品名を付与するために、商品IDをキーとして商品マスタと結合します。それらの結合を行うことで、下の予実テーブルが出来上がります。



image:Unyoo.jp Online道場 Vol.2の講演資料より抜粋


実践編まとめ

実践編では例を用いて、データの粒度を合わせるにはどうするべきか、結合のためにはどんなキーが必要かが紹介されました。分散したデータを一つにしたい時は、データの粒度をあわせ、それぞれのデータを紐付けるためのIDを付与し、それを結合キーとすることが重要だと海生は結びました。




今回のウェビナーでは、ダッシュボード構築に欠かせないデータの取り方・つなぎ方の入門部分が紹介されました。皆さまのデータ活用、ダッシュボード活用の一助になれば幸いです。


今回寄せられた質問については、以下の記事にて回答しています。


Unyoo.jpでは、2020年5月22日に、ウェビナー「ダッシュボード構築に欠かせないデータの取り方・つなぎ方のいろは(入門編)」を開催しました。※イベントレポートはこち...


次回のイベントは6月12日に開催予定の「企業が押さえておくべきBCP策定のためのダッシュボード」です。同回では「BCP策定」に焦点を当てたダッシュボードの作り方や、取得すべきデータについて紹介します。



Unyoo.jp Online道場とはテレワーク中の方々にもカジュアルにご視聴いただける無料のオンラインイベント「Unyoo.jp Online道場」第3回を、6月12日(金)に実施いたしま...


また、これまでのセミナー動画は「Unyoo.jp YouTube公式チャンネル」でも公開中です。




Related posts

Top