[Python]メールヘッダー解析：送信日時とドメイン自動抽出

1. はじめに

Eメールのヘッダーには、送信元、送信日時、経路情報などの重要な情報が含まれます。これらの情報を効率的に解析できれば、不正アクセスの検出やスパムメールの原因究明など、さまざまな場面で有用です。この記事では、Pythonの標準ライブラリを中心に、メールヘッダーから目的の情報を抽出する手法を段階的に説明していきます。

2. メールヘッダーの基本知識

メールヘッダーとは？

メールヘッダーは、Eメールに付随するメタデータの集合であり、主に以下の情報が含まれます。

送信元情報：メールを送信したドメインやメールアドレス
送信日時：メールが送信された日時
経路情報：メールが経由したサーバや中継情報

解析対象となる項目

本記事で特に注目する項目は以下の通りです。

送信元ドメイン：メールの「From」フィールドや「Received」フィールドから抽出可能。
送信日時：メールの「Date」フィールドから取得可能。

これらの情報は、メールの正当性検証や、トラブルシューティング、セキュリティ対策などに大いに役立ちます。

3. 開発環境と準備

利用ライブラリの紹介

以下のPython標準ライブラリを主に利用します。

email：メールの解析用
re：正規表現を用いた文字列抽出用
datetime：日付や時刻の整形用

4. Pythonによるメールヘッダー解析の基本手法

メールヘッダーの読み込み方法

まず、メールヘッダー情報をファイルから読み込む方法を確認します。ここでは、サンプルメールのヘッダーがテキストファイルとして保存されていると仮定します。

# sample_header.txtにメールヘッダー情報が保存されている前提
with open('sample_header.txt', 'r', encoding='utf-8') as file:
    header_content = file.read()

print(header_content)

このコードは、ファイルからヘッダー情報を取得し、コンソールに出力します。

正規表現を用いた情報抽出

次に、正規表現を使って送信元ドメインと送信日時を抽出する方法を示します。メールヘッダーは形式が多岐にわたるため、基本的なパターンマッチングを行います。

import re
from datetime import datetime

# 送信元ドメインを抽出する正規表現パターン（例：example.com）
domain_pattern = re.compile(r'@([A-Za-z0-9.-]+\.[A-Za-z]{2,})')

# 送信日時を抽出する正規表現パターン（例："Date: Wed, 15 Mar 2023 12:34:56 +0900"）
date_pattern = re.compile(r'Date:\s*(.*)')

# ヘッダー内から送信元ドメインを抽出
domains = domain_pattern.findall(header_content)
if domains:
    sender_domain = domains[0]  # 複数マッチした場合、最初のものを採用
else:
    sender_domain = '不明'

# ヘッダー内から送信日時を抽出
date_match = date_pattern.search(header_content)
if date_match:
    raw_date = date_match.group(1).strip()
    # 例として、"%a, %d %b %Y %H:%M:%S %z"形式でパース
    try:
        sender_date = datetime.strptime(raw_date, '%a, %d %b %Y %H:%M:%S %z')
    except ValueError:
        sender_date = raw_date  # パース失敗時は生データを使用
else:
    sender_date = '不明'

print("送信元ドメイン:", sender_domain)
print("送信日時:", sender_date)

このコードでは、メールヘッダー内から「@example.com」形式のドメインを抽出し、さらに「Date: 」行から送信日時を取得しています。実際のヘッダー情報のフォーマットに合わせて、正規表現パターンを調整してください。

5. 実践！送信元ドメイン・送信日時抽出のコード解説

コード全体の流れ

ファイルからメールヘッダーを読み込み：open()を使ってファイルからデータを取得します。
送信元ドメインの抽出：正規表現パターンdomain_patternを用いて、メールアドレスの「@」以降をキャプチャします。
送信日時の抽出と整形：date_patternにより、日付情報を取得し、datetime.strptimeで日付フォーマットに変換します。

エラーハンドリングとデータ整形

実運用では、以下のようなエラーチェックが必要です。

ファイルの存在チェック：ファイルが存在しない場合の例外処理
正規表現のパターンミスマッチ：抽出できなかった場合のフォールバック処理
日付フォーマットの多様性：さまざまな形式に対応するための柔軟なパーサー

以下は、エラーハンドリングを加えたサンプルコードです。

import re
from datetime import datetime

def parse_email_header(file_path):
    try:
        with open(file_path, 'r', encoding='utf-8') as file:
            header_content = file.read()
    except FileNotFoundError:
        return None, None

    # 送信元ドメイン抽出
    domain_pattern = re.compile(r'@([A-Za-z0-9.-]+\.[A-Za-z]{2,})')
    domains = domain_pattern.findall(header_content)
    sender_domain = domains[0] if domains else '不明'

    # 送信日時抽出
    date_pattern = re.compile(r'Date:\s*(.*)')
    date_match = date_pattern.search(header_content)
    if date_match:
        raw_date = date_match.group(1).strip()
        try:
            sender_date = datetime.strptime(raw_date, '%a, %d %b %Y %H:%M:%S %z')
        except ValueError:
            sender_date = raw_date  # 日付変換失敗時
    else:
        sender_date = '不明'

    return sender_domain, sender_date

# 実行例
domain, date_info = parse_email_header('sample_header.txt')
print("送信元ドメイン:", domain)
print("送信日時:", date_info)

6. レポート化と自動化のポイント

抽出結果のレポート作成方法

解析結果をCSVファイルやHTMLレポートとして出力することで、データの共有やログ管理が容易になります。以下は、CSVファイルへの出力例です。

import csv

def export_to_csv(data, output_file):
    # dataはリスト形式で[(ドメイン, 日時), ...]となることを想定
    with open(output_file, 'w', newline='', encoding='utf-8') as csvfile:
        writer = csv.writer(csvfile)
        writer.writerow(['送信元ドメイン', '送信日時'])
        for row in data:
            writer.writerow(row)

# サンプルデータ
sample_data = [(domain, date_info)]
export_to_csv(sample_data, 'email_report.csv')
print("レポートをemail_report.csvに出力しました。")

自動化スクリプトへの応用

解析スクリプトを定期実行することで、最新のメールヘッダー情報を自動的にレポート化できます。例えば、以下のような方法があります。

cronジョブ（Linux）：定期実行タスクとして設定
タスクスケジューラ（Windows）：Windows環境で自動実行
CI/CDパイプライン：サーバーレベルで定期的に解析する仕組み

各環境に合わせて、スクリプトの実行方法や出力先の設定を調整してください。

7. まとめ

本記事では、Pythonを使用してメールヘッダーから送信元ドメインと送信日時を抽出する方法を、基礎知識から実践コード、レポート化・自動化のポイントまで詳細に解説しました。

これにより、メールの解析作業を自動化し、業務効率の向上やセキュリティ対策に大いに役立てることができます。参考になればうれしいです。

豆知識

経路追跡の鍵

メールヘッダーに記載される「Received」フィールドは、メールがどのサーバを経由してきたかを順番に記録しています。これにより、送信元の正確なルートを追跡できるため、スパムや不正メールの調査に役立ちます。