ウェブスクレイピングをする上で、HTMLのテキストを正しく分割することは非常に重要です。この記事では、PythonのBeautifulSoupを使用して、HTMLのbrタグでテキストを分割する方法を紹介します。
BeautifulSoupとは何か
BeautifulSoupは、Pythonでよく使われるHTML/XMLのパーサーライブラリです。HTML/XMLを解析し、データを取得するために使用されます。BeautifulSoupを使用すると、HTMLやXMLドキュメントから必要な情報をスクレイピングできます。
BeautifulSoupを使ってHTMLをパースする方法
BeautifulSoupを使用するには、まずHTMLをパースする必要があります。以下のように、HTMLの文字列をBeautifulSoupオブジェクトに変換します。
from bs4 import BeautifulSoup html_doc = '<html><body><p>Hello, World!</p></body></html>' soup = BeautifulSoup(html_doc, 'html.parser')
以上のコードで、BeautifulSoupオブジェクトを作成し、HTMLをパースしました。
brタグとは何か
brタグは、HTMLで改行を表すために使用されるタグです。brタグを使用すると、改行ができます。
BeautifulSoupを使ってbrタグを見つける方法
BeautifulSoupを使用して、HTMLの中からbrタグを見つけるには、以下のようにします。
from bs4 import BeautifulSoup
html_doc = '<html><body><p>Hello, <br>World!</p></body></html>'
soup = BeautifulSoup(html_doc, 'html.parser')
br_tags = soup.find_all('br')
print(br_tags)
以上のコードで、HTMLの中からbrタグを見つけ、リストとして取得しました。
BeautifulSoupを使ってbrタグでテキストを分割する方法
BeautifulSoupを使用して、HTMLの中のテキストをbrタグで分割するには、以下のようにします。
from bs4 import BeautifulSoup
html_doc = '<html><body><p>Hello, <br>World!</p></body></html>'
soup = BeautifulSoup(html_doc, 'html.parser')
p_tags = soup.find_all('p')
for p_tag in p_tags:
text = p_tag.get_text()
text_list = text.split('\n')
print(text_list)
以上のコードで、HTMLの中のテキストをbrタグで分割しました。
実際のコードとその解説
以下に、実際にHTMLをパースして、brタグでテキストを分割するコードを示します。
from bs4 import BeautifulSoup
# パースするHTML
html_doc = '''
<html>
<head>
<title>サンプルページ</title>
</head>
<body>
<h1>Hello, World!</h1>
<p>はじめまして。<br>私はAIです。<br>よろしくお願いします。</p>
<ul>
<li>りんご</li>
<li>ばなな</li>
<li>オレンジ</li>
</ul>
</body>
</html>
'''
# HTMLをパースする
soup = BeautifulSoup(html_doc, 'html.parser')
# pタグを取得する
p_tags = soup.find_all('p')
# pタグの中身をbrタグで分割する
for p_tag in p_tags:
text = p_tag.get_text()
text_list = text.split('\n')
print(text_list)
実行結果は以下のようになります。
['はじめまして。', '私はAIです。', 'よろしくお願いします。']
以上のコードで、HTMLの中のpタグのテキストをbrタグで分割し、リストとして取得しました。
まとめ
BeautifulSoupを使用して、HTMLのbrタグでテキストを分割する方法を紹介しました。HTMLのテキストを正しく分割することは、ウェブスクレイピングをする上で非常に重要です。ぜひ、この方法を活用して、スクレイピングを行ってみてください。

![[Python]Pandasを使った再帰代入の手法](https://machine-learning-skill-up.com/knowledge/wp-content/uploads/2023/10/1-445.jpg)



![[Python]環境変数を扱う !os.environとos.environ.getとset](https://machine-learning-skill-up.com/knowledge/wp-content/uploads/2023/12/1-1394.jpg)