Octoparseを使用してECサイトから任意の情報をまとめて取得する方法(スクレイピング)

Octoparseとはwebサイトから任意の場所のテキストデータやリンク等のデータを抽出(スクレイピング)するソフトです。

今回はOctoparse使い方の一部をメモしておきたいと思います。

使用する前にユーザー登録とPCにソフトをインストールする必要があります。
http://www.octoparse.com/download

※スクレイピングは相手サイトに負荷をかけますので、相手サイトに了解を得る等の配慮を行い、サイト運営側に迷惑を掛けないようにしてください。
以前相手サイトをダウンさせていてしまい、逮捕者が出た事もありますので注意してください。
岡崎市立中央図書館事件

Octoparseにログイン

Octoparse使い方
ユーザー登録・インストールが完了したら、PCにOctoparseのアイコンがあるかと思いますので、そちらをクリックしてログイン画面が現れます。

キャプチャ
会員登録を行ったサイトユーザー名とパスワードでログインを行います。

管理画面での操作方法

キャプチャ-2
大きく分けると2つの方法でスクレイピングを行う事ができます。

管理画面の左側にある【Wizard Mode】は手軽にhtmlの階層単位等でスクレイピングができます。

右側にある【Advance Mode】は色々と設定を行う必要があるのですが、ピンポイントでほしい情報を抽出する事ができます。

今回はECサイトのそれぞれの詳細ページにアクセスして複数ある画像のURLと商品の価格と商品コードを抽出しますので、【Advance Mode】でスクレイピングを行っていきます。

まず【Advance Mode】の【Start】をクリックします。

キャプチャ
Task Nameに任意のファイル名を入力して【Next】をクリックします。

キャプチャ
上記画像の箇所に抽出したいサイトのURLを入力して右側の【地球マーク】をクリックするとサイトが表示されます。
今回はECサイトの商品一覧ページのURLを表示して、一覧ページに表示されている商品のデータを抽出していきます。

左上のURLを入力したら【Go To Web Page】と入ったと思いますが、ここはどのような流れでデータを抽出していくかを設定する箇所になります。
ですので、まずこのURLにアクセスしてくださいと命令が入った事になります。

キャプチャ
まず商品一覧の最初の商品をクリックするとウィンドウが開きますので、【Create a list of items】をクリックします。

キャプチャ
【Add current item to the list】をクリック

キャプチャ
選択した箇所が表示されますので、【Continue to edit the list】をクリック

キャプチャ
一覧商品の一番最後の商品をクリックして【Add current item to the list】をクリック

キャプチャ
一覧ページの商品がすべて選択されたら【Finish creating the list】をクリックします。

キャプチャ
【LOOP】をクリックします。
※IMGとなっていますが、ここで画像を抽出するわけではありません。
IMGを選択して商品ページへアクセスをする命令となります。

キャプチャ
そうすると先ほど命令したLOOPが左上窓に挿入され、下部のサイト表示が自動的に一覧ページから商品詳細ページに移動すると思います。
もし切り替わらないようであれば命令の仕方が間違っていると思うので、確認をしてみてください。

キャプチャ
商品詳細ページで欲しいデータを抽出していきます。
商品詳細ページからから商品コードをクリックして【Extract Text】をクリックします。

キャプチャ-14
そうすると上部右側窓に抽出したテキストが表示されたと思います。
この要領で商品詳細ページから抽出したいデータを選択していきます。

キャプチャ-13
画像の保存先URLを抽出したい場合は、画像をクリックして、【Extract Image address of this item】をクリックします。

キャプチャ
商品詳細ページから抽出したいデータを選択したら上記画像のようになるかと思います。
これで抽出準備は完了しましたので【Next】をクリックします。

データをダウンロードしてローカルに保存

キャプチャ
次のページは特に何もチェックを入れずに【Next】をクリックします。

キャプチャ
【Local Extraction】をクリックしますると抽出作業が始まります。

キャプチャ
抽出が終わると【Extaction completed!】が表示されますので【OK】をクリックします。
【Data Extracted】が抽出したデータとなります。

右下の【ecportボタン】からお好きな形式でダウンロードしてローカルに保存をすれば完了です。

エクセル形式で保存をするとしっかり項目ごとで別れていますので、一括で編集等も可能かと思います。

今回紹介した使用方法はほんの1部ですので、使用方法を変えれば、色々なサイトでも使用可能かと思います。

Octoparseを使用する場合はあくまで自己責任で使用してください。
相手様サイトへの負荷を掛けたりする事は自分ではそんなつもりは無くても、攻撃となりますので、くれぐれもご使用する場合は色々と配慮した上で使用する事をお勧めします。

スポンサーリンク

シェアする

  • このエントリーをはてなブックマークに追加

フォローする

スポンサーリンク