BeautifulSoupで条件を設定 !複数条件でのデータ抽出方法を解説｜自作で機械学習モデル・AIの使い方を学ぶ

BeautifulSoupの基本的な使い方とは

BeautifulSoupは、Pythonのライブラリの1つで、HTMLやXMLなどのマークアップ言語で書かれたファイルから情報を抽出することができます。BeautifulSoupを使うことで、Webスクレイピングが容易になり、Webサイトから必要な情報を抽出することができます。

BeautifulSoupで1つの条件を設定する方法

BeautifulSoupを使ってデータを抽出するには、条件を設定する必要があります。1つの条件を設定する方法は、以下のようになります。

import requests
from bs4 import BeautifulSoup
url = 'http://example.com'
response = requests.get(url)
soup = BeautifulSoup(response.text, 'html.parser')
data = soup.find('div', {'class': 'example-class'})

上記のコードでは、requestsモジュールを使ってWebページのHTMLデータを取得し、BeautifulSoupでパースした後、指定した条件に一致するデータを抽出しています。ここでは、classがexample-classであるdiv要素を抽出しています。

BeautifulSoupで複数の条件を設定する方法

複数の条件を設定する場合は、以下のようにすることができます。

import requests
from bs4 import BeautifulSoup
url = 'http://example.com'
response = requests.get(url)
soup = BeautifulSoup(response.text, 'html.parser')
data = soup.find('div', {'class': 'example-class', 'id': 'example-id'})

上記のコードでは、classがexample-classであるdiv要素かつidがexample-idであるdiv要素を抽出しています。

具体的なコード例を用いた解説

以下のコードでは、Pythonのrequestsモジュールを使って、技術サイトの記事一覧ページから投稿者名と投稿日時を抽出しています。

import requests
from bs4 import BeautifulSoup
url = '技術サイトのURL'
response = requests.get(url)
soup = BeautifulSoup(response.text, 'html.parser')
articles = soup.find_all('div', {'class': 'p-home_item'})
for article in articles:
    author = article.find('a', {'class': 'p-home_item_header_author'}).text
    date = article.find('time', {'class': 'p-home_item_header_date'}).text
    print(f'author: {author}, date: {date}')

上記のコードでは、技術サイトの記事一覧ページからclassがp-home_itemであるdiv要素を全て抽出し、各記事に含まれる投稿者名と投稿日時を抽出しています。