ガチャつくブログ

IT系のお勉強のために、やってみたことをアウトプットしていきます。

MENU

スクレイピングツールで遊ぶ - PigData -

f:id:tmt-tty:20190614224318p:plain

はじめに

スクレイピングって結構めんどくさいと思うんですが、そんな悩みを解決するツールを見つけたので、使ってみたいと思います。

その名も PigData です。

 

Pick Data × Big Data = PigData

とのこと

 

やり方

下記のサイトからログインをクリックします。

pig-data.sms-datatech.co.jp

 

Googleでログイン or 新規アカウント作成 をします。

f:id:tmt-tty:20190614214516p:plain


ログイン後、スクレイピングツールをクリックします。

f:id:tmt-tty:20190614214710p:plain

 

データを取得したいWebサイトのURLを入力します。

f:id:tmt-tty:20190614215034p:plain

 

今回は、J.League Data Site から現役選手一覧を取ってこれるか試してみたいと思います。

data.j-league.or.jp

 

URLを入力して、次へをクリックします。

ID・パスワードは不要なので、スキップをクリックします。

f:id:tmt-tty:20190614215340p:plain

 

プレビュー画面が実際のWebページの表示と同じ状態になります。

このページ上にデータがあるをクリックします。

f:id:tmt-tty:20190614215607p:plain

 

表形式データをクリックします。

f:id:tmt-tty:20190614215807p:plain

 

表形式の部分にマウスを持っていくと反転するので、クリックします。

次へをクリックします。

f:id:tmt-tty:20190614220202p:plain

 

列を指定することもできる様ですが、ここではすべてのデータを取得するをクリックします。

f:id:tmt-tty:20190614220335p:plain

 

データプレビューで取得したいデータとなっているか確認します。

列を追加できる様ですが、ここではスキップをクリックします。

f:id:tmt-tty:20190614220554p:plain

 

検索結果が複数にまたがる場合は、ページ移動ボタンを設定して全ページのデータが取得できる様です。

今回は1ページに収まっているため、スキップをクリックします。

f:id:tmt-tty:20190614220819p:plain

 

プロジェクト名を入力し、プロジェクト保存をクリックします。

f:id:tmt-tty:20190614221046p:plain

 

注意画面がでますが、問題なければOKをクリックします。

f:id:tmt-tty:20190614221211p:plain

 

保存したプロジェクトは定期的に実行することもできます。

f:id:tmt-tty:20190614221928p:plain

 

取得したデータを早速ダウンロードしてみます。・・・からダウンロードをクリックします。

f:id:tmt-tty:20190614222113p:plain

 

ステータスが緑チェックマークになるとダウンロードできる様です。

f:id:tmt-tty:20190614222508p:plain

 

緑チェックマークに変わったのでダウンロードをクリックします。

f:id:tmt-tty:20190614223810p:plain

 

データはエクセル形式でダウンロードされます。

データは問題無いようです。

f:id:tmt-tty:20190614223955p:plain

 

こりゃ楽チン。