Google スプレッドシートでスクレイピングする方法

こんにちは、認定クリエイターの中野です!

今回は Google スプレッドシートでスクレイピングする方法を紹介していきます。

Google スプレッドシートにおけるスクレイピングの特徴

本来スクレイピングでデータ収集を行うには、プログラミングの知識が必要になります。

しかし、Google スプレッドシートを用いれば、特定の関数を使用するだけで簡単にデータ収集ができます

Google スプレッドシートでスクレイピングを行うメリットは以下 3 つです。

メリット

  • コードを書かず、データ収集が可能
  • 環境構築も殆ど不要
  • しかも無料


一方で、以下のようなデメリットが挙げられます。

デメリット

  • ボタンを押すなどの UI 操作ができない
  • 高度なデータ収集には限度がある


今回は IMPORTXML 関数(使い方は後述)を用いて、Google スプレッドシートでスクレイピングする方法を紹介します。

Google スプレッドシートで Web ページの情報を抽出する方法

今回は、Web ページからタイトルを抽出してみましょう。全体像は以下の通りです。


STEP.1
Google スプレッドシートを開く

STEP.2
Web ページから抽出したい情報の XML Path Language(略称:XPATH)を取得

STEP.3
データを取得する

それぞれ具体的に、見てみましょう。

STEP.1: Google スプレッドシートを開く

まず Google Drive を開いてください。

Google Drive

次に左上にある「新規」をクリックし、 Google スプレッドシートを開きましょう。下図のようになれば、成功です。

Google スプレッドシート

STEP.2: Web サイトから抽出したい情報の XPATH を取得する

情報を抽出したい Web サイトを開きます。今回は キカガクのブログサイト から情報を抽出しましょう。

キカガクブログサイト

Web サイト上で右クリックして「検証」を押してください。

スクレイピング検証

すると、下図のように検証パネルが出てきます。

検証パネル

今回はキャリア形成を支援する転職サポートを開始! という言葉を抽出しましょう。

そのために、キャリア形成を支援する転職サポートを開始!XPATH を取得する必要があります。

XPATH とは、Web ページの様々な要素を表す住所のようなものです。XPATH を取得する理由は Google スプレッドシートでデータを収集する際に必要になるからです。

キャリア形成を支援する転職サポートを開始! の XPATH を取得するためにはセレクタを有効にします。方法は下図に示したボタンを押してください。

スクレイピング XPATH

そして キャリア形成を支援する転職サポートを開始! の部分を押しましょう。

次に、下図に従って 1 の部分を右クリック、「Copy」そして「Copy XPATH」を押しましょう。以上で XPATH をコピーできました!

STEP.3: データを取得する

まず、コピーした XPATH を Google スプレッドシートに張りつけましょう。

XPATH 貼り付け

次に、Web サイトの URL をコピーして、スプレッドシートにペーストしてください。

URL コピー

次に、Google スプレッドシートに IMPORTXML 関数 を入力しましょう。

IMPORTXML 関数の引数は、URLXPATH です。IMPORTXML(URL, XPATH)をセルに入力して使います。

下図のように キャリア形成を支援する転職サポートを開始! と結果が表示されれば、スクレイピング成功です!
スクレイピング完了

最後に

以上です。本記事は Google スプレッドシートを用いたスクレイピングの方法を紹介しました。

Google スプレッドシートを用いれば、簡単に、しかも無料でスクレイピングができます。また応用すれば、さらに実践的なデータ収集を行うことも可能です。

ぜひ色々試してみてください!

こちらの記事もオススメ

まずは無料で学びたい方・最速で学びたい方へ

まずは無料で学びたい方: Python&機械学習入門コースがおすすめ

Python&機械学習入門コース

AI・機械学習を学び始めるならまずはここから!経産省の Web サイトでも紹介されているわかりやすいと評判の Python&機械学習入門コースが無料で受けられます!
さらにステップアップした脱ブラックボックスコースや、IT パスポートをはじめとした資格取得を目指すコースもなんと無料です!

無料で学ぶ

最速で学びたい方:キカガクの長期コースがおすすめ

一生学び放題

続々と転職・キャリアアップに成功中!受講生ファーストのサポートが人気のポイントです!

AI・機械学習・データサイエンスといえばキカガク!
非常に需要が高まっている最先端スキルを「今のうちに」習得しませんか?

無料説明会を週 2 開催しています。毎月受講生の定員がございますので確認はお早めに!

説明会ではこんなことをお話します!
  • 国も企業も育成に力を入れている先端 IT 人材とは
  • キカガクの研修実績
  • 長期コースでの学び方、できるようになること
  • 料金・給付金について
  • 質疑応答