[Python]Seedを使ったWeighted Random Sampling ｜自作で機械学習モデル・AIの使い方を学ぶ

ランダムサンプリングとは、与えられたデータからランダムにサンプルを抽出することです。一般的には、サンプルが一様に分布するようにランダムに抽出されますが、重み付けによるランダムサンプリングでは、各データに対して異なる重みを与えることで、ある種のバイアスをかけたランダムサンプリングを実現できます。

Pythonのrandom.sampleとseedの使い方

Pythonには、ランダムサンプリングを実現するためのrandomモジュールがあります。random.sample関数を使うことで、与えられたリストから指定された数のサンプルをランダムに抽出することができます。

import random
data = [1, 2, 3, 4, 5]
sample = random.sample(data, 3)
print(sample)

このプログラムは、dataから3つのサンプルをランダムに抽出しています。実行結果は以下のようになります。

[3, 5, 2]

random.sample関数は、デフォルトでは重複のないサンプルを抽出します。もし重複を許したい場合は、random.choices関数を使います。

また、ランダムサンプリングの結果を再現するためには、seedを設定する必要があります。seedを設定することで、ランダムな値の生成が決定論的になります。

import random
random.seed(123)
data = [1, 2, 3, 4, 5]
sample = random.sample(data, 3)
print(sample)

seedを123に設定した場合の実行結果は以下のようになります。

[4, 3, 5]

同じseedを使って実行すると、同じサンプルが得られます。

重み付けによるランダムサンプリングの基礎

重み付けによるランダムサンプリングでは、各データに対して異なる重みを与えることで、ある種のバイアスをかけたランダムサンプリングを実現できます。重み付けされたデータからランダムにサンプルを抽出する場合、データの選択確率は重みに比例します。

例えば、以下のようなデータがあるとします。

data = [
    {"name": "Alice", "age": 20, "weight": 0.3},
    {"name": "Bob", "age": 30, "weight": 0.5},
    {"name": "Charlie", "age": 40, "weight": 0.2}
]

このデータからランダムに2つのサンプルを抽出する場合、各データに与えられた重みを考慮する必要があります。例えば、Bobというデータには0.5という重みが与えられているため、選択確率が高くなります。

Pythonでの重み付けランダムサンプリングの実装方法

Pythonでの重み付けランダムサンプリングは、以下のように実装できます。

import random
data = [
    {"name": "Alice", "age": 20, "weight": 0.3},
    {"name": "Bob", "age": 30, "weight": 0.5},
    {"name": "Charlie", "age": 40, "weight": 0.2}
]
weights = [d["weight"] for d in data]
sample = random.choices(data, weights=weights, k=2)
print(sample)

このプログラムは、dataから重みに比例した確率で2つのサンプルをランダムに抽出しています。実行結果は以下のようになります。

[
    {'name': 'Bob', 'age': 30, 'weight': 0.5},
    {'name': 'Alice', 'age': 20, 'weight': 0.3}
]

Seedを使ったランダムサンプリングの利点とその活用例

ランダムサンプリングでは、seedを使うことで、実行結果を再現可能にすることができます。これは、再現性のある実験や検証に必要不可欠です。

例えば、ある研究でランダムサンプリングを行い、その結果を報告する場合、seedを明示することで、他の人が同じ条件で再現できるようになります。

重み付けパラメータの調整とその影響について

重み付けパラメータを調整することで、サンプルの選択確率を調整することができます。例えば、あるデータに対して高い重みを与えると、そのデータが選ばれる確率が高くなります。

しかし、重み付けによるランダムサンプリングは、ある程度のバイアスがかかってしまうため、注意が必要です。特に、データの種類や分布によっては、バイアスが大きくなり、偏ったサンプルが得られることがあります。

Pythonを使った実用的な重み付けランダムサンプリングの例

重み付けランダムサンプリングは、機械学習やデータ分析などの分野でよく使われます。以下は、Pythonを使った実用的な重み付けランダムサンプリングの例です。

例えば、あるウェブサイトのユーザーログから、ランダムにサンプルを抽出して、ユーザーの行動パターンを分析する場合を考えます。この場合、各ユーザーに与えられた重みは、そのユーザーがサイトにアクセスする頻度や滞在時間などの指標を基に算出することができます。

import random
# ユーザーログからデータを読み込む
data = [
    {"user_id": 1, "action": "click", "weight": 0.3},
    {"user_id": 2, "action": "scroll", "weight": 0.5},
    {"user_id": 3, "action": "click", "weight": 0.2},
    # ...
]
# 重みを取り出す
weights = [d["weight"] for d in data]
# ランダムサンプリング
sample = random.choices(data, weights=weights, k=10)
# サンプルの行動パターンを分析する
click_count = sum([1 for d in sample if d["action"] == "click"])
scroll_count = sum([1 for d in sample if d["action"] == "scroll"])
print(f"click: {click_count}, scroll: {scroll_count}")

このプログラムは、dataから重みに比例した確率で10個のサンプルをランダムに抽出し、それぞれの行動パターンを分析しています。