機械学習・ディープラーニングがゼロから学べる大人気『脱ブラ』が無料に!

Excel でデータサイエンス!〜JAL と ANA 乗客者数が多いのはどっち?(前編)〜

はじめに

こんにちは、機械学習の講師やセールス&マーケティングを担当している並木です!
本記事では、前回に引き続き、データサイエンスに興味があるけれどプログラミングは苦手というみなさんのために、身近にあるツールで簡単にデータ分析を実践する方法をお伝えします!
前回記事は以下からご覧ください。
Excel でデータサイエンス!〜Airbnb 東京の状況をデータ分析してみた(基本統計量)〜

みなさんコロナ禍となり早 2 年が経過しましたが、いかがお過ごしでしょうか。
私も外出が少なくなり、特に飛行機に乗って遠出する機会はほとんど無くなってしまいました。
コロナ禍で大きなダメージを被っている業界の筆頭格が航空業界ですが、必ずや回復するときがくるでしょう。
今回は、そんな航空業界の中でも日本を代表する日本航空株式会社(以下 JAL)と全日本空輸株式会社(以下 ANA)の 2 社についてのデータ分析を試みます。

今回扱うデータ

今回は、アメリカのサンフランシスコ市がスマートシティプロジェクト推進の一環として運営しているオープンデータサイト「dataSF(data San Francisco)」のデータを活用します。
「dataSF」では、より良い都市づくりに役立てることを目的として数百種類ものデータが無償公開されています。
その中から、今回は「Air Passengers Statistics」のデータをもとに分析を行います。
サンフランシスコ国際空港を発着する国際便の運航実績情報が公開されており、以下リンクからアクセスできます。
参考 Air Passengers StatisticsdataSF(data San Francisco) ページ内の「Export」、「CSV」を選択するだけで簡単に CSV ファイルをダウンロードできます。

ダウンロードした CSV ファイルを確認してみましょう。

「運行年月」や「運行航空会社」、「運行地域」、「空港ターミナル」、「搭乗口」など、2005 年 7 月〜現在までの最新情報を取得できました。

Excel で時系列グラフを作成

まずは、3 つのステップで分析に必要な情報のみ抽出してデータを加工します。

Step.1 データの行列を成型する

列(項目名)と行(運航便情報)をグラフ化することで見やすくするため、ピボットテーブル機能を使って列、行、値の各フィールドに分析したい項目をドラッグ・アンド・ドロップで設定します。
今回は以下のように JAL と ANA の運行情報を時系列で比較して分析してみます。

  • 列フィールドに「Operating Airline(運行航空会社)」
  • 行フィールドに「Activity Period(運行年月)」
  • 値フィールドに「Passenger Count(乗客者数)」

Step.2 生データから必要な情報のみ取得する

多くの航空便情報の中でも、今回は「Japan Airline」、「All Nippon Airways」の運航便に分析対象を限定するため、列ラベルで 2 社のみ選択します。

ピボットテーブルの具体的な使い方は、前回の記事で詳しい手順を解説しておりますので、ぜひ合わせて御覧ください。
Excel でデータサイエンス!〜Airbnb 東京の状況をデータ分析してみた(基本統計量)〜

Step.3 グラフで可視化

データの特徴を捉える際、グラフ化することは効果的な分析方法の一つです。今回は横軸を「運行年月」、縦軸を「乗客者数」とした折れ線グラフとして可視化します。

まずは、「運行年月」「運行航空会社」の可視化したいデータ範囲を全て選択します。
次に「挿入」タブから「折れ線グラフ」のマークを選択し、通常の折れ線グラフを選択します。

そして最後に、グラフタイトルを追加します。

その結果作成できたグラフがこちらです!

JAL と ANA それぞれの 2005 年 7 月以降の乗客者数推移が一目瞭然となりました!
このように時系列グラフを作成することで、簡単に傾向をつかむことができます。

データの特徴をどう捉え、どう解釈するか?

みなさんはこの時系列グラフから、どのようなことが読み取れるでしょうか?
次回の記事で、データの読み解きについて基本的な考え方をお伝えします!

みなさんも今回のデータからどんなことが読み取れるか、ぜひ考えてみてください!

さいごに

今回も、Excel を使ったデータ分析の手法をご紹介しました。
みなさんも生のデータをどう整えて欲しい情報を抽出するか、今回の記事を参考にぜひ取り組んでみましょう!

そこから更に発展的な「データサイエンス」の領域に興味を持っていただいた方は、ぜひキカガクの動画コンテンツもぜひご活用ください!
プログラミングを使えば、驚くほど簡単に多角的なデータ分析を行うことができます。

無料で取り組んでいただけるコンテンツを多数ご用意しております!
「データサイエンス」をもっと身近なものとして活用していきましょう!

大人気コース「Python & 機械学習入門コース」が無料!

現在 e ラーニングプラットフォーム「キカガク」に無料登録すると、これまで多くの方にご受講頂いた、Python の基礎から機械学習の数学やプログラミングまでを学べる大人気コース「Python & 機械学習入門コース」が無料です。

好評である手書きの数学とハンズオン形式のプログラミングを通じて、初学者でも数学の理論から実装まで一から学習できます。また、動画で丁寧に解説しているため、迷うことなく最後まで継続して学習しやすいです。

データサイエンスのスキルを高めるために、Python の基礎から機械学習を学習したい方は、ぜひ教材の1つとしてご利用ください!