【入門編】データ分析の第一歩〜データ収集３つのコツ〜

こんにちは、キカガクでデータサイエンスや機械学習の講師をしている和泉です。日々講義をしていると、受講生の方からこんな相談を多く受けます。

A さん

社内にたくさんデータはあるのですが、どう分析をはじめたらよいのかわかりません。

これからデータを収集しようと思うのですが、どうやって集めればよいでしょうか？

B さん

データ分析プロジェクトを立ち上げた、もしくはこれから立ち上げようとしている方にとって、これらの疑問は誰しもが通る道です。
弊社でも実データを分析するプロジェクトを実施する中で、これらの疑問への対策を試行錯誤してきました。本記事では 3 つのコツを紹介します。この記事を読んで、ぜひデータ分析の第一歩を踏み出してください。

無料！Python & 機械学習入門コース

キカガク Learning なら「本当に無料？」と驚かれる、Python & 機械学習入門コースを動画とテキストで学べます！AI・機械学習を学び始めてみませんか？

無料登録へ

データありきのアプローチはダメ
必要なのはコミュニケーション？
データにも鮮度がある
データ分析の第一歩とは？
AI ビジネス活用が学べる体験型ワークショップを開催中！
- その他のキカガクの研修事例

データありきのアプローチはダメ

まず、大前提として「社内にデータがあるから、データ分析できる！（しかも、勘と経験を上回るような成果が出る）」というアプローチはうまくいきません。

昨今のデータサイエンスの流行により、華々しい成果を耳にすることも多いですが、それらは全て綿密な設計と仮説をもとにデータ収集や分析を行っています。

とりあえず社内に溜まっているデータを分析してみることから、そういった驚くべき知見が出てくるということは、ほとんどないと思った方が良いでしょう。

これは料理に例えるならば、とりあえず冷蔵庫に溜まっている野菜を使って、絶品のコース料理を作るのは無理なのと同じです。
機械学習を扱う人の間では、「Garbage in Garbage out （ごみを入れたらごみが出てくる）」と言われるほど、分析対象のデータの質が大切になってきます。

そうはいっても、ビックデータがあれば大丈夫なんでしょ？というのも、残念ながら間違いです。機械学習の開発にデータ量が大切なのは正しいのですが、１００万個のじゃがいもだけでは美味しいコース料理は作れません。

つまり、データは意図的に収集する必要があります。まずはデータ分析で解くべき課題の方向性を明確にし、必要なデータを集めてきましょう。

ポイント

解きたい課題をもとにデータを収集しないと、有効な分析をすることができない

必要なのはコミュニケーション？

データ収集の方針が決まったら、実際にデータを収集します。収集の方法は大きく 4 つあります。

社内でデータを保持している部署と連携して取得する
新規に社内でデータを収集する
外部からデータを購入する
業務提携や委託をする

このように、多くの人が介在したり、複数の処理プロセスを経たりするために、データ分析者とデータ収集者は、異なる人物が担当するというケースが多いです。

ここでよくある落とし穴が、「必要なデータさえ渡せば、データサイエンティストが上手いこと何かの分析をしてくれる。」という勘違いです。

もちろんデータサイエンティストはデータ分析のプロなのですが、データの発生状況や取得状況、データが表す意味についてはデータ取得者の方が知見をもっている場合が多いです。

例えば、データによっては業界特有のトレンドや変化のサイクルがあること、異常値といえるような稀なケースの扱い、ヒューマンエラーの介在の有無（データが自動取得かどうか）などは、データ取得者とコミュニケーションをとることで明らかになります。