機械学習・ディープラーニングがゼロから学べる大人気『脱ブラ』が無料に!

Google スプレッドシートでスクレイピングする方法

こんにちは、認定クリエイターの中野です!

今回は Google スプレッドシートでスクレイピングする方法を紹介していきます。

Google スプレッドシートにおけるスクレイピングの特徴

本来スクレイピングでデータ収集を行うには、プログラミングの知識が必要になります。

しかし、Google スプレッドシートを用いれば、特定の関数を使用するだけで簡単にデータ収集ができます

Google スプレッドシートでスクレイピングを行うメリットは以下 3 つです。

メリット
  • コードを書かず、データ収集が可能
  • 環境構築も殆ど不要
  • しかも無料
一方で、以下のようなデメリットが挙げられます。
デメリット
  • ボタンを押すなどの UI 操作ができない
  • 高度なデータ収集には限度がある

今回は IMPORTXML 関数(使い方は後述)を用いて、Google スプレッドシートでスクレイピングする方法を紹介します。

Google スプレッドシートで Web ページの情報を抽出する方法

今回は、Web ページからタイトルを抽出してみましょう。全体像は以下の通りです。

STEP.1
Google スプレッドシートを開く
STEP.2
Web ページから抽出したい情報の XML Path Language(略称:XPATH)を取得
STEP.3
データを取得する

それぞれ具体的に、見てみましょう。

STEP.1: Google スプレッドシートを開く

まず Google Drive を開いてください。

Google Drive

次に左上にある「新規」をクリックし、 Google スプレッドシートを開きましょう。下図のようになれば、成功です。

Google スプレッドシート

STEP.2: Web サイトから抽出したい情報の XPATH を取得する

情報を抽出したい Web サイトを開きます。今回は キカガクのブログサイト から情報を抽出しましょう。

キカガクブログサイト

Web サイト上で右クリックして「検証」を押してください。

スクレイピング検証

すると、下図のように検証パネルが出てきます。

検証パネル

今回はキャリア形成を支援する転職サポートを開始! という言葉を抽出しましょう。

そのために、キャリア形成を支援する転職サポートを開始!XPATH を取得する必要があります。

XPATH とは、Web ページの様々な要素を表す住所のようなものです。XPATH を取得する理由は Google スプレッドシートでデータを収集する際に必要になるからです。

キャリア形成を支援する転職サポートを開始! の XPATH を取得するためにはセレクタを有効にします。方法は下図に示したボタンを押してください。

スクレイピング XPATH

そして キャリア形成を支援する転職サポートを開始! の部分を押しましょう。

次に、下図に従って 1 の部分を右クリック、「Copy」そして「Copy XPATH」を押しましょう。以上で XPATH をコピーできました!

STEP.3: データを取得する

まず、コピーした XPATH を Google スプレッドシートに張りつけましょう。

XPATH 貼り付け

次に、Web サイトの URL をコピーして、スプレッドシートにペーストしてください。

URL コピー

次に、Google スプレッドシートに IMPORTXML 関数 を入力しましょう。

IMPORTXML 関数の引数は、URLXPATH です。IMPORTXML(URL, XPATH)をセルに入力して使います。

下図のように キャリア形成を支援する転職サポートを開始! と結果が表示されれば、スクレイピング成功です!
スクレイピング完了

最後に

以上です。本記事は Google スプレッドシートを用いたスクレイピングの方法を紹介しました。

Google スプレッドシートを用いれば、簡単に、しかも無料でスクレイピングができます。また応用すれば、さらに実践的なデータ収集を行うことも可能です。

ぜひ色々試してみてください!