機械学習・ディープラーニングがゼロから学べる大人気『脱ブラ』が無料に!

Excel でデータサイエンス!〜Airbnb 東京の状況をデータ分析してみた(基本統計量)〜

はじめに

こんにちは、機械学習の講師を担当している並木です!
本記事では、データサイエンスに興味があるけれどもプログラミングは苦手というみなさんに向けて、身近にあるツールで簡単にデータ分析を実践する方法をお伝えします!

みなさん最近、「データサイエンス」という言葉をよく耳にしませんか?
あらゆるビジネスにおいてデータ活用の推進が近年急速に進んでおり、「データサイエンス」のスキルは今後ますます重要になります。

とはいえ、

統計に関する知識はないし…」

A さん

データ分析してみたいけどプログラミングは難しそう

B さん

と、興味はありつつも一歩踏み出すことをためらう方も多いのではないでしょうか?

そんな方に朗報です!
プログラミングができなくても、新しいツールを導入しなくても、多くの方が普段使っているソフトを使って簡単にデータ分析を始めることができるのです!

みなさん、普段の業務などで、Microsoft 社が開発している表計算ソフト Excel を使っている方は多いでしょう。
実は、Excel を活用することで簡単にデータ分析を行うことができます!

Excelでデータ分析

Excel に機能を追加できるアドインを利用することで、「分析ツール」を利用することができます。
簡単に機能追加できますので早速やってみましょう!

【分析ツールの導入手順】

Step1. 「ファイル」→「オプション」

Step2. 「アドイン」→ 「設定」

Step3. 「分析ツール」にチェックを入れたら完了です!

上記は Windows での手順です。Mac をご利用の方や詳しい手順を知りたい方は以下リンクをご参照ください。
参考 Excelで分析ツールをアドイン

「データ」タブに「分析ツール」が表示されますので早速使っていきましょう!

実践!データ分析(基本統計量)

Excel の分析ツールを使ってどんなことができるのか、実践してみましょう!

それでは早速ですが、あなたが宿泊施設の出店計画を立案する立場にあると考えてみてください。

どのエリアにどんな価格帯で次の宿泊施設を出店すべきでしょうか?
様々な情報をもとに検討する際、競合事業者のデータを分析することは有効な手立ての一つとして考えられます。

そこで今回は、Airbnb(エアビーアンドビー:泊まる場所を探す旅行者と、空き家・空き部屋を貸したい人をつなぐオンラインサービス)の登録物件情報から都内各自治体の登録リストを活用した分析を実践してみましょう!

Airbnb のデータは、物件名、エリア、宿泊できる部屋の種類、価格などが「Inside Airbnb」というサイトで公開されており、リアルなデータ分析にもってこいです。

参考 Inside Airbnb -adding data to debate.

今回は世界中の物件情報の中から東京のデータ(listings.csv)を分析してみます。
(※2021年12月28日時点のデータを使用)


ダウンロードしたデータには、物件名、エリア、宿泊できる部屋の種類、価格など様々な情報がまとめられています。

まずは、Excel のピポットテーブルを使って必要なデータを抽出してみましょう。
今回は、自治体エリア別の価格帯を分析してみます。

【ピポットテーブルでのデータ抽出手順】

Step1. 「挿入」タブ → 「ピポットテーブル」

Step2. 分析に利用したいすべてのデータ範囲を選択 →
→ ピポットテーブルの配置先を選択 → 「OK」

するとピポットテーブルのフィールドが表示されます。

Step3. 抽出したいデータの行、列、値の情報をフィールド名からそれぞれ選択します。
ドラッグアンドドロップで簡単にフィールドを入れ替えることが可能です。

行には「物件 ID」、列には「自治体名」、値に「価格」をそれぞれ選択します。

ここまでで、分析に必要なデータを抽出することができました!
それでは、ここから「分析ツール」を使って今回は各自治体エリア別の基本統計量データを取得してみましょう。

【分析ツールの使用手順】

Step1. 「データ」タブ → 「データ分析」→「基本統計量」→「OK」

Step2. 入力元の項目:入力範囲を選択、「先頭行をラベルとして追加」にチェック

すると、各自治体エリア別の平均、中央値、最小値、最大値、などの情報を一発で取得することができます!

ちなみに、主要な統計量の価格順トップ 3 は以下のようになりました!
(※標本数が 1 桁の自治体もありますが、データの偏りは考慮していない状態での結果です)

※2021年12月28日時点
【Airbnb 東京エリア 価格順トップ 3】
平均値(1 泊あたりの平均価格)
1 位:江戸川区(38,338 円)
2 位:奥多摩市(32,996 円)
3 位:千代田区(32,347 円)

中央値(1 泊あたりの小さい順に並べた価格のちょうど中央にある価格)
1 位:三鷹市 (27,000 円)
2 位:武蔵野市(20,857 円)
3 位:狛江市 (18,200 円)

最頻値(1 泊あたりの最も出現する頻度の多い価格)
1 位:港区  (50,000 円)
2 位:千代田区(50,000 円)
3 位:中央区 (24,000 円)

統計における代表値(平均値、中央値、最頻値)をもとに集計しましたが、それぞれトップ 3 の顔ぶれは異なる興味深い結果となりました!

Excel では他にも分析ツールを使って様々な切り口でデータ分析が可能です。
違った観点からデータを見つめることで、各エリアの Airbnb 登録状況についてより詳細な分析が導き出せるかもしれません。

さいごに

「データサイエンス」ってなんだか難しそう…というイメージをお持ちだった方も、Excel を使って簡単にデータ分析が始められるというイメージを持っていただくことができたのではないでしょうか?

データ分析に興味がある方はぜひ「分析ツール」を活用してみてください!
これまで何気なく使っていた Excel があなたの頼もしい武器になることでしょう!

そこから更に発展的な「データサイエンス」の領域に興味を持っていただいた方は、ぜひキカガクの動画コンテンツもぜひご活用ください!
無料で取り組んでいただけるコンテンツを多数ご用意しております!

「データサイエンス」をもっと身近なものとして活用していきましょう!

大人気コース「Python & 機械学習入門コース」が無料!

現在 e ラーニングプラットフォーム「キカガク」に無料登録すると、これまで多くの方にご受講頂いた、Python の基礎から機械学習の数学やプログラミングまでを学べる大人気コース「Python & 機械学習入門コース」が無料です。

好評である手書きの数学とハンズオン形式のプログラミングを通じて、初学者でも数学の理論から実装まで一から学習できます。また、動画で丁寧に解説しているため、迷うことなく最後まで継続して学習しやすいです。

データサイエンスのスキルを高めるために、Python の基礎から機械学習を学習したい方は、ぜひ教材の1つとしてご利用ください!