[Python]スクレイピングでid指定・クラス指定・タグ指定｜自作で機械学習モデル・AIの使い方を学ぶ

ウェブサイトから必要な情報を収集するスクレイピングは、Pythonを使うことで簡単に実現できます。Pythonには様々なスクレイピングライブラリがありますが、今回は「BeautifulSoup4」を使います。

id指定によるスクレイピングの方法

idを指定して要素を取得するには、findメソッドを使います。

from bs4 import BeautifulSoup
import requests
url = "http://example.com"
res = requests.get(url)
soup = BeautifulSoup(res.text, "html.parser")
# idが「title」の要素を取得
title = soup.find(id="title")
print(title)

このようにすることで、idが「title」の要素を取得することができます。

クラス指定によるスクレイピングの方法

クラスを指定して要素を取得するには、find_allメソッドを使います。

from bs4 import BeautifulSoup
import requests
url = "http://example.com"
res = requests.get(url)
soup = BeautifulSoup(res.text, "html.parser")
# classが「content」の要素を全て取得
contents = soup.find_all(class_="content")
print(contents)

このようにすることで、classが「content」の要素を全て取得することができます。

タグ指定によるスクレイピングの方法

タグを指定して要素を取得するには、find_allメソッドを使います。

from bs4 import BeautifulSoup
import requests
url = "http://example.com"
res = requests.get(url)
soup = BeautifulSoup(res.text, "html.parser")
# aタグを全て取得
links = soup.find_all("a")
print(links)

このようにすることで、aタグを全て取得することができます。