Excel でデータサイエンス!〜Airbnb 東京の状況をデータ分析してみた(基本統計量)〜

はじめに

こんにちは、機械学習の講師を担当している並木です!
本記事では、データサイエンスに興味があるけれどもプログラミングは苦手というみなさんに向けて、身近にあるツールで簡単にデータ分析を実践する方法をお伝えします!

みなさん最近、「データサイエンス」という言葉をよく耳にしませんか?
あらゆるビジネスにおいてデータ活用の推進が近年急速に進んでおり、「データサイエンス」のスキルは今後ますます重要になります。

とはいえ、

統計に関する知識はないし…」

A さん

データ分析してみたいけどプログラミングは難しそう

B さん

と、興味はありつつも一歩踏み出すことをためらう方も多いのではないでしょうか?

そんな方に朗報です!
プログラミングができなくても、新しいツールを導入しなくても、多くの方が普段使っているソフトを使って簡単にデータ分析を始めることができるのです!

みなさん、普段の業務などで、Microsoft 社が開発している表計算ソフト Excel を使っている方は多いでしょう。
実は、Excel を活用することで簡単にデータ分析を行うことができます!

Excelでデータ分析

Excel に機能を追加できるアドインを利用することで、「分析ツール」を利用することができます。
簡単に機能追加できますので早速やってみましょう!

【分析ツールの導入手順】

Step1. 「ファイル」→「オプション」

Step2. 「アドイン」→ 「設定」

Step3. 「分析ツール」にチェックを入れたら完了です!

上記は Windows での手順です。Mac をご利用の方や詳しい手順を知りたい方は以下リンクをご参照ください。
参考 Excelで分析ツールをアドイン

「データ」タブに「分析ツール」が表示されますので早速使っていきましょう!

実践!データ分析(基本統計量)

Excel の分析ツールを使ってどんなことができるのか、実践してみましょう!

それでは早速ですが、あなたが宿泊施設の出店計画を立案する立場にあると考えてみてください。

どのエリアにどんな価格帯で次の宿泊施設を出店すべきでしょうか?
様々な情報をもとに検討する際、競合事業者のデータを分析することは有効な手立ての一つとして考えられます。

そこで今回は、Airbnb(エアビーアンドビー:泊まる場所を探す旅行者と、空き家・空き部屋を貸したい人をつなぐオンラインサービス)の登録物件情報から都内各自治体の登録リストを活用した分析を実践してみましょう!

Airbnb のデータは、物件名、エリア、宿泊できる部屋の種類、価格などが「Inside Airbnb」というサイトで公開されており、リアルなデータ分析にもってこいです。

参考 Inside Airbnb -adding data to debate.

今回は世界中の物件情報の中から東京のデータ(listings.csv)を分析してみます。
(※2021年12月28日時点のデータを使用)


ダウンロードしたデータには、物件名、エリア、宿泊できる部屋の種類、価格など様々な情報がまとめられています。

まずは、Excel のピポットテーブルを使って必要なデータを抽出してみましょう。
今回は、自治体エリア別の価格帯を分析してみます。

【ピポットテーブルでのデータ抽出手順】

Step1. 「挿入」タブ → 「ピポットテーブル」

Step2. 分析に利用したいすべてのデータ範囲を選択 →
→ ピポットテーブルの配置先を選択 → 「OK」

するとピポットテーブルのフィールドが表示されます。

Step3. 抽出したいデータの行、列、値の情報をフィールド名からそれぞれ選択します。
ドラッグアンドドロップで簡単にフィールドを入れ替えることが可能です。

行には「物件 ID」、列には「自治体名」、値に「価格」をそれぞれ選択します。

ここまでで、分析に必要なデータを抽出することができました!
それでは、ここから「分析ツール」を使って今回は各自治体エリア別の基本統計量データを取得してみましょう。

【分析ツールの使用手順】

Step1. 「データ」タブ → 「データ分析」→「基本統計量」→「OK」

Step2. 入力元の項目:入力範囲を選択、「先頭行をラベルとして追加」にチェック

すると、各自治体エリア別の平均、中央値、最小値、最大値、などの情報を一発で取得することができます!

ちなみに、主要な統計量の価格順トップ 3 は以下のようになりました!
(※標本数が 1 桁の自治体もありますが、データの偏りは考慮していない状態での結果です)

※2021年12月28日時点
【Airbnb 東京エリア 価格順トップ 3】
平均値(1 泊あたりの平均価格)
1 位:江戸川区(38,338 円)
2 位:奥多摩市(32,996 円)
3 位:千代田区(32,347 円)

中央値(1 泊あたりの小さい順に並べた価格のちょうど中央にある価格)
1 位:三鷹市 (27,000 円)
2 位:武蔵野市(20,857 円)
3 位:狛江市 (18,200 円)

最頻値(1 泊あたりの最も出現する頻度の多い価格)
1 位:港区  (50,000 円)
2 位:千代田区(50,000 円)
3 位:中央区 (24,000 円)

統計における代表値(平均値、中央値、最頻値)をもとに集計しましたが、それぞれトップ 3 の顔ぶれは異なる興味深い結果となりました!

Excel では他にも分析ツールを使って様々な切り口でデータ分析が可能です。
違った観点からデータを見つめることで、各エリアの Airbnb 登録状況についてより詳細な分析が導き出せるかもしれません。

さいごに

「データサイエンス」ってなんだか難しそう…というイメージをお持ちだった方も、Excel を使って簡単にデータ分析が始められるというイメージを持っていただくことができたのではないでしょうか?

データ分析に興味がある方はぜひ「分析ツール」を活用してみてください!
これまで何気なく使っていた Excel があなたの頼もしい武器になることでしょう!

そこから更に発展的な「データサイエンス」の領域に興味を持っていただいた方は、ぜひキカガクの動画コンテンツもぜひご活用ください!
無料で取り組んでいただけるコンテンツを多数ご用意しております!

「データサイエンス」をもっと身近なものとして活用していきましょう!

こちらの記事もオススメ

まずは無料で学びたい方・最速で学びたい方へ

まずは無料で学びたい方: Python&機械学習入門コースがおすすめ

Python&機械学習入門コース

AI・機械学習を学び始めるならまずはここから!経産省の Web サイトでも紹介されているわかりやすいと評判の Python&機械学習入門コースが無料で受けられます!
さらにステップアップした脱ブラックボックスコースや、IT パスポートをはじめとした資格取得を目指すコースもなんと無料です!

無料で学ぶ

最速で学びたい方:キカガクの長期コースがおすすめ

一生学び放題

続々と転職・キャリアアップに成功中!受講生ファーストのサポートが人気のポイントです!

AI・機械学習・データサイエンスといえばキカガク!
非常に需要が高まっている最先端スキルを「今のうちに」習得しませんか?

無料説明会を週 2 開催しています。毎月受講生の定員がございますので確認はお早めに!

説明会ではこんなことをお話します!
  • 国も企業も育成に力を入れている先端 IT 人材とは
  • キカガクの研修実績
  • 長期コースでの学び方、できるようになること
  • 料金・給付金について
  • 質疑応答