Beautiful Soupで404エラーに出会った時の対処法を解説

Beautiful Soupで404エラーに出会った時の対処法を解説

ウェブスクレイピングをしていると、404エラーに遭遇することがあります。本記事では、Beautiful Soupを使ったウェブスクレイピング中に発生する404エラーの理由や対処法を解説します。

ウェブスクレイピングのエラーハンドリング方法

ウェブスクレイピング中には、さまざまなエラーが発生する可能性があります。その中でもよくあるのが404エラーです。404エラーとは、ページが見つからなかった場合に発生するエラーです。ウェブスクレイピング中に404エラーが発生すると、スクレイピングが中断され、プログラムが停止します。そこで、プログラムを停止せずに404エラーに対処する方法を紹介します。

こんな人におすすめ

  • Pythonを使ったウェブスクレイピングを行っている人
  • Beautiful Soupを使ってウェブスクレイピングを行っている人
  • 404エラーに遭遇して困っている人

使用する主なライブラリ

  • Beautiful Soup 4
  • requests

404エラーに対する基本的な理解

404エラーとは何か

404エラーとは、ページが見つからなかった場合に発生するエラーです。ウェブサイトが更新された場合や、URLの入力ミスがあった場合などに発生することがあります。

404エラーが発生する主な理由

  • URLが間違っている
  • リンク先のページが削除された
  • リンク先のページが移動した
  • サーバーがダウンしている

404エラーに対処する方法

Beautiful Soupを使ったウェブスクレイピング中に404エラーが発生した場合は、以下の方法で対処できます。

requestsライブラリを用いたステータスコードのチェック

requestsライブラリを使って、ステータスコードをチェックすることで、404エラーが発生したかどうかを確認できます。

import requests
from bs4 import BeautifulSoup

url = 'https://example.com/page-that-does-not-exist'

response = requests.get(url)

if response.status_code == 404:
    print('404エラーが発生しました。')
else:
    soup = BeautifulSoup(response.content, 'html.parser')
    # スクレイピングの処理を行う

上記のコードでは、指定したURLに対してrequests.get()メソッドを用いてHTTPリクエストを送信し、レスポンスを取得します。次に、responseオブジェクトのstatus_code属性を確認して、404エラーが発生しているかどうかを判定します。404エラーが発生している場合は、エラーメッセージを表示し、それ以外の場合はBeautiful Soupを使ってスクレイピングの処理を行います。

エラーハンドリングを行うコードの例

以下は、Beautiful Soupを使ったウェブスクレイピング中に発生する404エラーをハンドリングするコードの例です。

import requests
from bs4 import BeautifulSoup

url = 'https://example.com/page-that-does-not-exist'

try:
    response = requests.get(url)
    response.raise_for_status()
except requests.exceptions.RequestException as e:
    print(e)
else:
    soup = BeautifulSoup(response.content, 'html.parser')
    # スクレイピングの処理を行う

上記のコードでは、try-except文を用いて、HTTPリクエストを送信し、レスポンスを取得します。次に、responseオブジェクトのraise_for_status()メソッドを使って、HTTPリクエストが成功したかどうかを確認します。エラーが発生している場合は、exceptブロックに処理が移り、エラーメッセージを表示します。それ以外の場合はBeautiful Soupを使ってスクレイピングの処理を行います。

より安全なウェブスクレイピングのためのアドバイス

ウェブスクレイピング中に発生するエラーをハンドリングするだけでなく、より安全なウェブスクレイピングを行うためには、以下のアドバイスを守ることが重要です。

適切なインターバルを設定してサーバーへの負荷を軽減

ウェブスクレイピングを行う際は、サーバーに負荷をかけすぎないようにするため、適切なインターバルを設定することが大切です。一定間隔を開けてスクレイピングを行うことで、サーバーに対する負荷を軽減することができます。

ログを残すことで問題の発生源を特定しやすくする

ウェブスクレイピング中にエラーが発生した場合は、ログを残すことで問題の発生源を特定しやすくなります。エラーが発生したURLやエラーの内容を詳細にログに残しておくことで、問題解決に役立ちます。

まとめ

本記事では、Beautiful Soupを使ったウェブスクレイピング中に発生する404エラーについて解説しました。また、404エラーに対処する方法や、より安全なウェブスクレイピングのためのアドバイスについても紹介しました。これらの知識を活用して、より効率的かつ安全なウェブスクレイピングを行いましょう。

最後に、ウェブページのデータを抽出する際に、著作権と知的財産権に抵触する場合は、スクレイピングは控えましょう。
また、ウェブサイトの利用規約を確認し、スクレイピングが明示的に許可されているかどうかを確認してください。
許可されていない場合は、法的問題が発生する可能性があります。
合わせて、スクレイピングを行う場合、サイトへの負荷に配慮しましょう。