Pandasのfillnaを使いこなす方法欠損値処理の基本と応用｜自作で機械学習モデル・AIの使い方を学ぶ

はじめに

PandasはPythonのデータ分析ライブラリであり、データの操作や変換に非常に便利です。しかし、実データには欠損値（NaNやnull値）が存在することがあります。欠損値はデータの不完全さや誤った結果の原因となる可能性があるため、正確な分析結果を得るためには欠損値の適切な処理が必要です。この記事では、Pandasのfillnaメソッドを使いこなす方法について解説します。

Pandasと欠損値の扱い：Pandasでのデータ分析と欠損値処理の重要性

Pandasはデータ分析において広く使用されているライブラリであり、データの整理や変換、統計処理などを容易に行うことができます。しかし、実際のデータには欠損値が存在することがあります。欠損値はNaN（Not a Number）やnull値などで表され、データが不完全な状態を示しています。

欠損値が存在するままでは、データ分析結果が正確でない可能性があります。そのため、欠損値の適切な処理が重要となります。Pandasのfillnaメソッドは、欠損値を指定した値で補完するための便利な機能です。

fillnaの基本的な使い方：基本的なfillnaの使用方法とそのパラメーター

fillnaメソッドの基本的な使い方を紹介します。fillnaはSeriesやDataFrameオブジェクトで使用することができます。fillnaメソッドの一般的な構文は以下の通りです。

df.fillna(value, method, axis, inplace)

主なパラメーターは次のとおりです。

value: 欠損値を置き換える値を指定します。数値や辞書型、シリーズ、データフレームなどを指定することができます。
method: 欠損値を補完する方法を指定します。代表的な値としては「ffill」（前方埋め）や「bfill」（後方埋め）があります。
axis: 欠損値の補完を行う方向を指定します。デフォルトは0で、行方向に補完します。1を指定すると列方向に補完します。
inplace: データフレーム自体を変更するかどうかを指定します。デフォルトはFalseで、新しいデータフレームを返します。

以下のコード例は、DataFrameの欠損値を特定の値で補完する方法を示しています。

# ライブラリのインポート
import pandas as pd
# DataFrameの作成
data = {'A': [1, 2, None, 4, 5],
        'B': [None, 6, 7, None, 9],
        'C': [10, 11, 12, 13, None]}
df = pd.DataFrame(data)
# 欠損値を0で補完
df_filled = df.fillna(0)
# 結果の表示
print(df_filled)

上記のコードでは、DataFrameの欠損値を0で補完しています。fillnaメソッドに補完する値として0を指定しています。

平均値や中央値での欠損値補完：統計量（平均値、中央値など）を用いた欠損値処理

欠損値を統計量（平均値、中央値など）で補完する方法もあります。Pandasでは、fillnaメソッドの値として統計量を指定することができます。以下のコード例は、DataFrameの欠損値を列ごとの平均値で補完する方法を示しています。

# 平均値で欠損値を補完
df_filled = df.fillna(df.mean())
# 結果の表示
print(df_filled)

上記のコードでは、fillnaメソッドの値としてdf.mean()を指定しています。これにより、各列の平均値が計算され、欠損値がそれぞれの列の平均値で補完されます。

メソッドチェーンによる欠損値処理：fillnaを用いた複数ステップの欠損値処理

複数のステップで欠損値処理を行う場合、メソッドチェーンを使用することが便利です。メソッドチェーンを使うことで、複数のfillnaメソッドを連続して適用することができます。以下のコード例は、メソッドチェーンを使用して欠損値処理を行う方法を示しています。

# 欠損値処理のメソッドチェーン
df_filled = df.fillna(0).fillna(method='ffill').fillna(method='bfill')
# 結果の表示
print(df_filled)

上記のコードでは、fillnaメソッドをメソッドチェーンでつなげて複数の欠損値処理を行っています。最初に欠損値を0で補完し、その後にffillメソッド（前方埋め）を使って欠損値を前の値で補完し、さらにbfillメソッド（後方埋め）を使って残った欠損値を後の値で補完しています。

時系列データにおける欠損値補完：時間的な連続性を利用した欠損値補完

時系列データでは、時間的な連続性を利用して欠損値を補完する方法があります。Pandasでは、fillnaメソッドのmethodパラメーターに「ffill」や「bfill」を指定することで、前後の値を使って欠損値を補完することができます。以下のコード例は、時系列データにおける欠損値補完の方法を示しています。

# 時系列データの欠損値補完
df_filled = df.fillna(method='ffill')
# 結果の表示
print(df_filled)

上記のコードでは、fillnaメソッドのmethodパラメーターに「ffill」を指定しています。これにより、欠損値が前の値で補完されます。同様に、「bfill」を指定することで欠損値が後の値で補完されます。

応用：マルチカラムの欠損値補完：複数の列に対応する欠損値補完

複数の列に対応する欠損値補完を行う場合、fillnaメソッドに辞書型を指定することで、各列ごとに異なる値で欠損値を補完することができます。以下のコード例は、マルチカラムの欠損値補完を行う方法を示しています。

# マルチカラムの欠損値補完
fill_values = {'A': 0, 'B': df['B'].mean(), 'C': df['C'].median()}
df_filled = df.fillna(fill_values)
# 結果の表示
print(df_filled)

上記のコードでは、fillnaメソッドのvalueパラメーターに辞書型fill_valuesを指定しています。各列に対して異なる値を指定することで、欠損値がそれぞれの列ごとに補完されます。例えば、列’A’の欠損値は0で補完され、列’B’の欠損値は平均値で補完され、列’C’の欠損値は中央値で補完されます。

まとめ

この記事では、Pandasのfillnaメソッドを使いこなす方法について解説しました。欠損値の処理はデータ分析において非常に重要であり、正確な結果を得るために適切な処理を行う必要があります。Pandasのfillnaメソッドを活用することで、欠損値を特定の値や統計量で補完したり、メソッドチェーンを使って複数の処理を組み合わせたりすることができます。

さらに、時系列データやマルチカラムの場合には、適切な補完方法を選択することが重要です。時系列データでは時間的な連続性を利用した補完方法が有効であり、マルチカラムの場合には列ごとに異なる値で補完することができます。

データ分析においては、欠損値処理は欠かせないステップです。Pandasのfillnaメソッドを使いこなすことで、データの完全性を保ちながら正確な分析結果を得ることができます。