[Python]契約書などの文書中からIDを抽出

1. はじめに

Pythonの正規表現を活用し、契約書や報告書、請求書などの長文から「Invoice No: XXXXX」や「Order ID: YYYYY」といった特定パターンの文字列を自動抽出する方法について解説します。この記事では、課題の背景や正規表現の基本知識、実際のコード例、応用テクニックまで網羅的に紹介します。

記事の目的と背景

多くの企業で契約書や請求書、報告書といった長文文書が日常的に使用されています。これらの文書から必要なID情報（例：「Invoice No: XXXXX」、「Order ID: YYYYY」）を効率よく抽出したいことがあります。手作業で行うと時間や人的ミスが発生するため、Pythonの正規表現を利用して自動抽出する方法を紹介したいと思います。

「契約書などの文書中のID抽出」が求められる理由

効率化: 大量の文書から必要な情報を迅速に取り出すことで、手間が省ける。
精度向上: 正規表現を活用することで、抽出ミスを低減します。
自動化: 定期的なレポート作成やデータ管理が自動化できます。

2. 課題の解説

長文解析

契約書、報告書、請求書などは、必要な情報が文章中に散在しているため、単純な検索では抽出が難しいです。大量のデータから「Invoice No: XXXXX」や「Order ID: YYYYY」のようなパターンを効率的に抽出したいことがあります。

今回使う例

Invoice No: 請求書番号を示す文字列（例：「Invoice No: 12345」）。
Order ID: 注文番号を示す文字列（例：「Order ID: ABCDE」）。

3. 正規表現の基本知識

正規表現とは？

正規表現（Regular Expression）は、文字列パターンを表現するための強力なツールです。特定の文字列やパターンを効率的に検索・抽出するために使用されます。

Pythonでの正規表現モジュール（re）の紹介

Pythonでは、標準ライブラリのreモジュールを使用して正規表現を扱います。

import re

基本パターンと応用パターンの解説

基本パターン: 数字を表す\d、英字を表す\w、繰り返しを示す+や*などがあります。
応用パターン: 固定の文字列（例：「Invoice No:」）に続く任意の数字・英字を抽出するパターンや、グループ化を活用して必要な部分のみ取得する方法があります。

4. 実践：文書からID抽出するPythonコード

サンプルデータの準備

まずは、契約書や報告書のサンプルテキストを用意します。

sample_text = """
お客様各位、
本契約に基づくサービスの提供にあたり、以下のID情報をご確認ください。
Invoice No: 12345
Order ID: ABCDE
その他詳細については、担当者までお問い合わせください。
"""

正規表現を用いた抽出の手順

import re

# パターンの定義（Invoice NoとOrder IDの抽出）
pattern_invoice = r"Invoice No:\s*(\w+)"
pattern_order   = r"Order ID:\s*(\w+)"

# 正規表現検索
invoice_matches = re.findall(pattern_invoice, sample_text)
order_matches   = re.findall(pattern_order, sample_text)

print("抽出されたInvoice No:", invoice_matches)
print("抽出されたOrder ID:", order_matches)

コード解説とポイントの説明

パターン定義: \s*は空白文字を0個以上受け入れ、(\w+)は英数字（及びアンダースコア）を1個以上取得します。
re.findall(): マッチした全ての文字列をリスト形式で返します。

5. 応用テクニックと注意点

複数パターン抽出の方法

複数のIDパターンを同時に抽出する場合、複数の正規表現パターンを用意してそれぞれに対してfindallを実行するか、パターンを一つにまとめる方法があります。

pattern = r"(Invoice No:\s*(\w+))|(Order ID:\s*(\w+))"
matches = re.findall(pattern, sample_text)

invoice_ids = [m[1] for m in matches if m[1]] 
order_ids = [m[3] for m in matches if m[3]] 

print("抽出されたInvoice No:", invoice_ids) 
print("抽出されたOrder ID:", order_ids)

テキストの前処理・後処理のコツ

前処理: テキスト中の不要な改行や空白を正規化すると抽出精度が向上します。
後処理: 抽出結果のリストを重複除去やフォーマットの整形することで、使いやすくなります。

エラーハンドリングとパフォーマンス改善策

エラーハンドリング: 該当パターンが存在しない場合の例外処理を実装したほうが良いです。
パフォーマンス改善: 大量のテキストを処理する場合、正規表現のコンパイル（re.compile()）を利用することで速度向上が期待できます。

6. 実行結果の確認とデモ

以下は上記コードを実行した際の出力例です。

抽出されたInvoice No: ['12345']
抽出されたOrder ID: ['ABCDE']

この仕組みにより、複数の契約書や請求書に含まれるID情報がリスト形式で管理でき、データベースへの登録や自動化処理への展開が容易になります。

7. まとめ

正規表現を使い、Pythonのreモジュールを使ってテキスト内のパターンを抽出する方法を紹介しました。

この方法で、契約書や請求書などの文書から効率的にID情報を抽出し、業務を効率化できる可能性があります。

おまけ

Pythonの正規表現について

Pythonの正規表現は、Perl言語での実装に影響を受けています。Perlは「正規表現の王様」とも呼ばれ、非常に強力なテキスト処理機能を持っています。そのため、Pythonユーザーも自然にPerlライクな書き方に親しむことが多いです。