BeautifulSoupでHTMLタグからhref属性を抽出する方法｜自作で機械学習モデル・AIの使い方を学ぶ

BeautifulSoupとは何か

BeautifulSoupは、Pythonのライブラリで、HTMLやXMLの解析に使われます。HTMLやXMLは、タグや属性が複雑に絡み合っているため、手作業で解析するのは困難ですが、BeautifulSoupを使えば簡単に解析できます。

BeautifulSoupのインストール方法

BeautifulSoupを使うには、まずPythonのインストールが必要です。Pythonがインストールされている場合は、以下のコマンドでBeautifulSoupをインストールできます。

pip install beautifulsoup4

HTMLタグからhref属性を抽出するための基本的なコード

以下のコードは、HTMLタグからhref属性を抽出するための基本的なコードです。

from bs4 import BeautifulSoup
import requests
url = "http://example.com"
r = requests.get(url)
soup = BeautifulSoup(r.content, "html.parser")
for link in soup.find_all("a"):
    print(link.get("href"))

このコードでは、requestsライブラリを使ってURLにアクセスし、BeautifulSoupを使ってHTMLを解析しています。soup.find_all(“a”)で、HTMLのaタグをすべて取得し、link.get(“href”)で、aタグのhref属性を取得しています。

具体的な抽出手順の説明

次に、具体的な抽出手順を説明します。

requestsライブラリを使って、URLにアクセスする。
BeautifulSoupを使って、HTMLを解析する。
soup.find_all(“a”)で、HTMLのaタグをすべて取得する。
link.get(“href”)で、aタグのhref属性を取得する。

複数のhref属性を一度に抽出する方法

複数のhref属性を一度に抽出する場合は、以下のようにコードを変更します。

from bs4 import BeautifulSoup
import requests
url = "http://example.com"
r = requests.get(url)
soup = BeautifulSoup(r.content, "html.parser")
links = [link.get("href") for link in soup.find_all("a")]
print(links)

このコードでは、リスト内包表記を使って、aタグのhref属性をリストに格納しています。