第9章: Pythonで大規模なデータのスクレイピング – 無料プログラミング教室 Pスクール

Pythonの強力なフレームワークである Scrapy を使用して、複数ページにまたがるデータや大規模なデータセットを短時間で効率的に収集する手法を解説します。

Scrapyとは？

Scrapyは、Pythonで書かれた非常にパワフルなWebスクレイピングフレームワークです。これは、大規模なデータ収集を容易にし、複数ページにわたるクローリングや、JavaScriptで生成された動的なWebページからのデータ取得を効率的に行うことができるツールです。Scrapyは、優れた非同期処理機能と再利用可能なコンポーネントを備えており、リクエストの並列化により、従来のスクレイピング手法に比べて圧倒的なスピードでデータを収集することができます。

Scrapyの特徴

非同期処理: リクエストの処理が非同期で行われるため、大量のデータを高速に処理可能。
柔軟性: クローラやデータパイプライン、ミドルウェアのカスタマイズが簡単で、拡張性が高い。
再利用可能なコード: Spiderやアイテムパイプラインなどの再利用可能なコンポーネントを提供し、効率的なコード作成が可能。
効率的なデータ抽出: CSSセレクタやXPathを使った強力なデータ抽出機能。
データパイプライン: 収集したデータの整理、クリーンアップ、保存を自動的に行うことができる。

このフレームワークを使うことで、手動でリクエストを送り、レスポンスをパースし、データを抽出する手間を大幅に省くことができます。

Scrapyのインストールとセットアップ

まず、Scrapyをインストールします。以下のコマンドを使って、Pythonのパッケージマネージャである pip を使いScrapyをインストールしましょう。

pip install scrapy

インストールが完了したら、新しいプロジェクトを作成してScrapyの環境を構築します。ターミナルでプロジェクトフォルダに移動し、以下のコマンドを実行します。

scrapy startproject myproject

これにより、Scrapyプロジェクトが作成され、以下のディレクトリ構造が生成されます。

myproject/
    scrapy.cfg            # プロジェクトの設定ファイル
    myproject/            # プロジェクトモジュール
        __init__.py
        items.py          # 収集したデータの定義
        middlewares.py    # ミドルウェア設定
        pipelines.py      # データのパイプライン設定
        settings.py       # プロジェクトの設定
        spiders/          # スパイダー（クローラー）を定義するディレクトリ
            __init__.py

ここで、 spiders ディレクトリにある spider というのが、実際にWebスクレイピングのロジックを定義する場所になります。

Scrapy Spiderの作成

次に、Spiderを作成します。Spiderは、特定のWebサイトから情報を収集するために設計されたクローラのようなものです。ここでは、複数のページから効率的にデータを収集する例を見てみましょう。

まず、 spiders フォルダに移動し、新しいPythonファイルを作成します。たとえば example_spider.py という名前にします。

import scrapy

class ExampleSpider(scrapy.Spider):
    name = 'example'
    allowed_domains = ['example.com']
    start_urls = ['http://example.com/page1.html']

    def parse(self, response):
        # ページからデータを抽出するロジック
        title = response.css('title::text').get()
        yield {
            'title': title,
        }

        # 次のページへのリンクを探す
        next_page = response.css('a.next::attr(href)').get()
        if next_page is not None:
            yield response.follow(next_page, self.parse)

この ExampleSpider では、start_urls で最初にアクセスするページを指定し、 parse メソッドでページからデータを抽出しています。この場合、タイトル（ title ）を取得し、それを yield で出力しています。また、 next_page 変数を使って「次へ」ボタンのリンクを探し、それを response.follow で追跡しています。これにより、次のページに遷移し、再びデータを抽出するという再帰的な処理が行われます。

複数ページにわたるスクレイピング

多くのWebサイトでは、データが複数のページに分割されているため、各ページに対して同じ操作を行う必要があります。これを効率的に行うためには、リンクをたどりながらデータを収集する必要があります。

上記の例では、 response.follow を使用して次のページを追跡していますが、Scrapyではこのようなページ遷移の管理が非常に簡単です。ScrapyのSpiderは、複数のページを自動的にクロールし、必要なデータを収集できます。

def parse(self, response):
    # 現在のページのデータを取得
    for product in response.css('div.product'):
        yield {
            'name': product.css('a.product_name::text').get(),
            'price': product.css('span.price::text').get(),
        }

    # 次のページがあるか確認
    next_page = response.css('a.next_page::attr(href)').get()
    if next_page is not None:
        yield response.follow(next_page, self.parse)

このコードでは、 div.product の中にある各商品をループで取得し、名前と価格を yield で出力しています。さらに、次のページへのリンクが存在する場合は、 response.follow で次のページをクロールし続けます。

大規模なデータ収集を効率化する方法

大規模なデータのスクレイピングを行う際には、効率的なリクエスト管理や、エラー処理、タイムアウト管理などを適切に設定することが重要です。Scrapyにはこれらを最適化するための設定や仕組みが備わっています。

並列リクエストの設定

Scrapyでは、デフォルトで16の並列リクエストを送信するように設定されていますが、大量のデータを収集する場合、これを増やすことで効率をさらに向上させることができます。これを設定するには、 settings.py ファイルで以下のように設定します。

# 最大並列リクエスト数を増やす
CONCURRENT_REQUESTS = 32

ダウンロードの遅延

並列リクエストを増やすと、Webサーバーに対して多くのリクエストが短期間に送信されるため、負荷をかける可能性があります。これを防ぐために、Scrapyにはリクエスト間の遅延を設定する機能があります。これにより、サーバーに対する負荷を軽減し、ブロックされるリスクを減らせます。

# リクエスト間の遅延を設定
DOWNLOAD_DELAY = 2  # 2秒の遅延

ユーザーエージェントの偽装

Webサーバーは、同じユーザーエージェントからの大量のリクエストを検出し、ブロックすることがあります。Scrapyでは、ユーザーエージェントを偽装することで、サーバーにスクレイピングを行っていることを検出されにくくできます。

# ユーザーエージェントを設定
USER_AGENT = 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.36'

さらに、 scrapy-fake-useragent ライブラリを利用することで、リクエストごとにランダムなユーザーエージェントを使うことが可能です。

エラーハンドリング

大規模なスクレイピングでは、リクエストが失敗することもあります。そのため、リトライ機能を使って、失敗したリクエストを再試行する設定を追加できます。これも settings.py で設定します。

# リトライ回数を設定
RETRY_TIMES = 5  # 5回までリトライ

アイテムパイプライン

アイテムパイプラインを使用すると、スクレイピングしたデータを保存する前に処理やフィルタリングを行うことができます。データベースへの保存や、ファイルへの書き込みもパイプラインで実装可能です。

class MyPipeline:
    def process_item(self, item, spider):
        # データのクリーニングや変換をここで行う
        item['price'] = float(item['price'].replace('$', ''))
        return item

この例では、価格データから $ 記号を取り除き、数値として扱えるようにしています。

パイプラインを有効にするには、 settings.py に以下を追加します。

ITEM_PIPELINES = {
    'myproject.pipelines.MyPipeline': 300,
}

データの保存

Scrapyでは、データの保存先として複数の形式がサポートされています。デフォルトではJSONやCSV、XML形式で保存できますが、データベース（MongoDBやMySQLなど）に直接保存することも可能です。

以下は、スクレイピングしたデータをJSON形式で保存する例です。

scrapy crawl example -o output.json

このコマンドを実行すると、Scrapyは output.json というファイルにスクレイピングしたデータを保存します。

ミドルウェアの活用

Scrapyには「ミドルウェア」という仕組みがあり、リクエストやレスポンスを処理する前後に特定の処理を挟むことができます。これにより、カスタマイズした動作を追加したり、エラー処理を挟んだりすることができます。

たとえば、プロキシを利用してIPアドレスを変更するミドルウェアを追加することで、アクセス制限の回避やブロックの防止を行うことができます。

まとめ

Scrapyを使うことで、大規模なデータを効率的に収集することが可能です。並列リクエストの処理や、再利用可能なSpider、アイテムパイプライン、ミドルウェアなど、強力な機能を駆使することで、短時間で大量のデータを取得し、それを適切に整理、保存することができます。