機械学習・ディープラーニングがゼロから学べる大人気『脱ブラ』が無料に!

【ノーコード】無料版の Octoparse でスクレイピングする方法【初心者必見】

こんにちは。認定クリエイターの martina. です!
みなさんはスクレイピングというIT 用語をご存知でしょうか?

簡単に説明すると web ページから必要な情報を自動で収集することです。
具体的な例をあげると、データ分析や機械学習のため大量のデータがほしいときに、この技術が使われたりしています。また個人的な用途でも、手作業で集めていた画像を自動で集めることができるなど利便性は高いです。

このように便利なスクレイピングなのですが、今まではプログラミングの知識が必要でした。

しかし、今回はプログラミングやコード一切不要でスクレイピングができる Octoparse(読み方:オクトパス)というサービスを紹介します!

今回は無料のフリープランで使える機能を解説します。今回はキカガクの用意したページから評価やレビュー情報を爆速で収集するので、ぜひ参考にしてくださいね。

Octoparse をインストール

Octoparse をインストールする手順
  1. アカウント作成
  2. ダウンロード・インストールしてログイン
上記の流れで解説します。

1. アカウント作成

Octoparseアカウントが必要になるので、まずアカウントを作ります。
こちらから必要事項を入力し、アカウントを作成しましょう。

2. ダウンロード・インストールしてログイン

こちらからセットアッププログラムをダウンロードしましょう。この記事では、 8.2 Beta で解説します。
ダウンロードが終わったらセットアッププログラムをダブルクリックして、手順に従ってインストールしてください。

ソフトを立ち上げると、上図の画面が表示されます。
先ほど作成したアカウントのユーザー名かメールアドレスと、パスワードを入力してログインしましょう。

Octoparse

上図の画面がでてきたらスクレイピングする準備ができました。早速使ってみましょう。

Octoparse の使い方

スクレイピングする手順
  1. URL を入力
  2. web ページから情報を抽出
  3. ファイルをエクスポート
上記の流れで解説します。

1. URL を入力

まずは、スクレイピングしたい web サイトの URL を用意します。
今回はキカガクで用意したこちらのサイトからスクレイピングしてみましょう。
スクレイピング用の Web サイト

Octoparse スクレイピング

URL を検索ボックスに入力し、「抽出開始」をクリックします。

2. web ページから情報を抽出

Octoparse 自動識別

上図の画面が表示されるので、右側のWeb ページを自動識別するをクリックしましょう。
そうすると自動で Web ページの解析が行われます。

Octoparse ワークフロー

解析が終わると、ページ下部にスクレイピングした情報が表になって並んでいるので、ほしい情報が取得できているか確認しましょう。ほしい情報がとれているので「ワークフローを生成」をクリックします。

Octoparse ローカル抽出

ワークフローが生成されたので、「保存して実行する」を押して、スクレイピングを開始しましょう。

ここで、ローカル抽出かクラウド抽出か選択するのですが、フリープランではローカル抽出のみ可能なので、ローカル抽出を選択してください。データがどんどん抽出されていきます!

POINT
Octoparse 表
表の項目のゴミ箱マークで一括削除鉛筆マークで項目の名前の編集などができます。ドラッグすると順番を変えることも可能です。
注意
フリープランでは抽出できるデータ数が 10000 件までとなっています。
また、ローカル抽出は、使用しているコンピューターの性能とネットワークの速度によってデータ抽出の速度が変わります。

一方クラウド抽出は、複数のサーバーのクラウド内で実行されるので、ローカル抽出よりも約 6 〜 20 倍高速でデータ抽出が行えます。

3. ファイルをエクスポート

Octoparse エクスポート

スクレイピングが終わったらデータをエクスポートを押して EXCEL CSV HTML JSON ファイルから好きな形式を選び、はいをクリックしてエクスポートしましょう。

Octoparse EXCEL

エクスポートしたファイルを開くと、上図のようにエクセルなどでデータを扱うことができます。このようにほぼ自動で簡単にデータが集められました!

フリープランと有料版の違い

有料版では、これらの機能に加えて、 Amazon や 楽天などの有名な web サイトを、テンプレートを使って自分で設定することなくスクレイピングできたり、クラウドを使って定期実行ができたりします。
各プランの価格や詳細などは、こちらから確認してみてくださいね。

まとめ

今回はノーコードでスクレイピングをすることができる Octoparse を紹介しました。
自動解析で簡単にスクレイピングができたのが個人的には驚きました。私はプログラミングが苦手なので、このようなサービスは本当に助かりますね!!
またノーコードで便利なサービスがあれば紹介していこうと思うので、楽しみにしていてくださいね!