Pythonで学ぶURL正規化入門｜業務で使うPython前処理

1. はじめに

Webサイト運営やデータ解析の現場では、URLに余計なトラッキングパラメータやクエリが付与されることが多く、これがSEOやアクセス解析に悪影響を及ぼす場合があります。この記事では、Pythonを用いて不要なパラメータを除去し、基本的なURL形式に統一する方法を具体例とともに解説します。

URLの不要なトラッキングパラメータ（例：utm_source、utm_medium）の除去
正規化されたURLによるSEO効果の向上
Pythonの標準ライブラリを使ったシンプルな実装例の提供

2. URL正規化とは？

定義と基本概念

URL正規化とは、同じリソースを指す複数の異なるURL（パラメータの順序や不要なパラメータの有無など）を、統一された「正規のURL」に変換する処理です。これにより、検索エンジンが同一コンテンツを重複として認識しないようにすることができます。

正規化のメリット

SEO対策: 重複するURLを統一することで、検索エンジンからの評価が分散されず、サイト全体のSEO効果が向上します。
アクセス解析の精度向上: トラッキングパラメータなどの余計な情報を除去することで、正確なアクセス数やユーザーの行動が把握できます。

3. 課題の現状：トラッキングパラメータと不要なクエリ

一般的なトラッキングパラメータの事例

多くのWebサイトでは、マーケティング目的で以下のようなパラメータがURLに付与されます。

utm_source
utm_medium
utm_campaign
utm_term
utm_content

不要なクエリが引き起こす問題点

SEO上の重複問題: 同じページでもパラメータが異なると、検索エンジンが別ページとして認識してしまう可能性があります。
ユーザー体験の低下: 長く煩雑なURLは、ユーザーにとって見にくく、信頼性にも疑問を抱かせることがあります。

4. Pythonで実現するURL正規化

Pythonでは、標準ライブラリの urllib.parse や正規表現（re）を使用することで、URL正規化を簡単に実現できます。以下に基本的なコード例を示します。

使用するライブラリとツール

urllib.parse: URLを分解し、各要素（スキーム、ネットロケーション、パス、クエリなど）にアクセスするために使用します。
re: 正規表現を利用して不要なクエリパラメータをフィルタリングします。

コード例：URLのパースと不要パラメータの除去

import urllib.parse
import re

def normalize_url(url, params_to_remove=None):
    if params_to_remove is None:
        # デフォルトで削除するパラメータのリスト
        params_to_remove = ['utm_source', 'utm_medium', 'utm_campaign', 'utm_term', 'utm_content']
    
    # URLをパース
    parsed_url = urllib.parse.urlparse(url)
    
    # クエリパラメータを辞書形式に変換
    query_params = urllib.parse.parse_qs(parsed_url.query)
    
    # 不要なパラメータを除去
    filtered_params = {k: v for k, v in query_params.items() if k not in params_to_remove}
    
    # 辞書からクエリ文字列を再生成
    new_query = urllib.parse.urlencode(filtered_params, doseq=True)
    
    # 正規化されたURLを組み立てる
    normalized_url = urllib.parse.urlunparse((
        parsed_url.scheme,
        parsed_url.netloc,
        parsed_url.path,
        parsed_url.params,
        new_query,
        parsed_url.fragment
    ))
    return normalized_url

# テスト用URL
url = "https://example.com/page?utm_source=google&utm_medium=cpc&ref=homepage"
print("正規化前:", url)
print("正規化後:", normalize_url(url))

上記のコードでは、urllib.parse を用いてURLを分解し、不要なパラメータを除去した後に再度URLを組み立てています。実行結果は以下のようになります。

正規化前: https://example.com/page?utm_source=google&utm_medium=cpc&ref=homepage
正規化後: https://example.com/page?ref=homepage

5. 実践例：具体的なケーススタディ

マーケティングキャンペーンなどでよく見られる、トラッキングパラメータが付与されたURLを正規化する方法を見ていきます。

ケーススタディの背景

以下のURLを例に、正規化の前後を比較してみます。

test_url = "https://example.com/landing?utm_source=facebook&utm_campaign=spring_sale&sessionid=12345"

正規化の前後の比較

正規化前:

https://example.com/landing?utm_source=facebook&utm_campaign=spring_sale&sessionid=12345

正規化後:

print("正規化後:", normalize_url(test_url))
# https://example.com/landing?sessionid=12345

出力結果は、マーケティング用パラメータが除去され、必要なパラメータのみが残る形となります。

6. 応用：より高度なURL正規化テクニック

基本的な正規化に加え、複雑なURL構造に対応するためのテクニックも存在します。ここでは、カスタムパラメータの除去や正規表現を活用した方法について解説します。

複雑なURL構造への対応方法

複数階層のパスやアンカーの処理: urllib.parse を利用すれば、スキーム、ネットロケーション、パス、クエリ、フラグメントの各要素を個別に操作可能です。
カスタムパラメータの除去: プロジェクトに応じて除去したいパラメータを追加することで、柔軟な対応が可能です。

正規表現を使ったパラメータ除去のカスタマイズ方法

より細かい制御が必要な場合、正規表現を利用して特定のパラメータパターンを検出し、除去する方法もあります。例えば、以下のコードをご覧ください。

def remove_custom_params(query, pattern):
    # クエリを分解
    params = query.split('&')
    # 正規表現にマッチしないパラメータのみを抽出
    filtered = [p for p in params if not re.search(pattern, p)]
    return '&'.join(filtered)

# 使用例
original_query = "utm_source=google&utm_medium=cpc&custom_param=xyz"
pattern = r'^utm_'  # utmで始まるパラメータを除去
clean_query = remove_custom_params(original_query, pattern)
print("クリーンなクエリ:", clean_query)

この例では、utm_ で始まる全てのパラメータを除去し、必要なパラメータのみを保持しています。

7. まとめ

本記事では、Pythonを用いたURL正規化の基本的な考え方と実装方法について解説しました。

これらのテクニックを活用することで、WebサイトのURL管理が効率的になります。