[Python]PandasのDataFrameの平均値、中央値を求める方法

はじめに

本記事では、Pythonのデータ処理ライブラリであるPandasを使用して、DataFrameの平均値と中央値を求める方法について詳しく解説します。データの集計や分析を行う際には、平均値と中央値は重要な指標となります。Pandasの便利な関数を使って、簡単にこれらの値を求めることができます。

Pandasにおけるデータフレームの平均値と中央値の求め方についての詳解

Pandasは、Pythonでデータ分析を行うための強力なツールです。特に、データを表形式で扱うためのデータフレーム(DataFrame)オブジェクトは非常に便利です。DataFrameは、行と列から構成されるテーブル状のデータ構造であり、Excelのようなスプレッドシートと似た形式でデータを扱うことができます。

データフレームの平均値は、データセット内の数値列の合計値をその列のデータ数で割ることで求められます。一方、中央値はデータを昇順または降順にソートし、中央に位置する値です。データ数が奇数の場合は中央の値が中央値となり、偶数の場合は中央の2つの値の平均が中央値となります。

データフレームの平均値を求めるためのmean関数の使用方法

平均値を求めるためには、Pandasのmean関数を使用します。mean関数は、データフレームの各列の平均値を計算します。以下のコードは、データフレームの平均値を求める基本的な使い方の例です。

import pandas as pd
# データフレームの作成
df = pd.DataFrame({'A': [1, 2, 3, 4, 5],
                   'B': [6, 7, 8, 9, 10],
                   'C': [11, 12, 13, 14, 15]})
# 平均値の計算
mean_values = df.mean()
print(mean_values)

上記のコードでは、3つの列(A、B、C)を持つデータフレームを作成し、mean関数を使用して各列の平均値を計算しています。計算結果はSeriesオブジェクトとして返され、各列の平均値が表示されます。

データフレームの中央値を求めるためのmedian関数の使用方法

中央値を求めるためには、Pandasのmedian関数を使用します。median関数は、データフレームの各列の中央値を計算します。以下のコードは、データフレームの中央値を求める基本的な使い方の例です。

import pandas as pd
# データフレームの作成
df = pd.DataFrame({'A': [1, 2, 3, 4, 5],
                   'B': [6, 7, 8, 9, 10],
                   'C': [11, 12, 13, 14, 15]})
# 中央値の計算
median_values = df.median()
print(median_values)

上記のコードでは、3つの列(A、B、C)を持つデータフレームを作成し、median関数を使用して各列の中央値を計算しています。計算結果はSeriesオブジェクトとして返され、各列の中央値が表示されます。

適用例を用いた、mean関数とmedian関数の具体的な使用方法

ここでは、実際のデータセットを用いた、mean関数とmedian関数の具体的な使用方法を示します。以下の例では、ある店舗の商品の売上データを含むデータフレームを作成し、平均値と中央値を求める方法を示します。

import pandas as pd
# データフレームの作成
df = pd.DataFrame({'商品名': ['A', 'B', 'C', 'D', 'E'],
                   '売上': [100, 200, 150, 120, 180]})
# 平均値の計算
mean_sales = df['売上'].mean()
# 中央値の計算
median_sales = df['売上'].median()
print("平均売上:", mean_sales)
print("中央値売上:", median_sales)

上記のコードでは、商品名と売上を含むデータフレームを作成し、売上列を抽出して平均値と中央値を計算しています。結果はそれぞれの変数に格納され、表示されます。

データの欠損値に対する処理の説明と、それが平均値と中央値の計算にどのように影響するか

データフレームには、欠損値(NaNやNoneなど)が含まれる場合があります。欠損値は、データの不完全な部分を表すものであり、正確な平均値や中央値の計算に影響を及ぼす可能性があります。

欠損値の扱い方はデータによって異なりますが、一般的な方法として以下の2つがあります。

  • 欠損値を除外する:欠損値を含む行や列を削除することで、完全なデータで平均値や中央値を計算します。
  • 欠損値を補完する:欠損値を他の値(平均値や中央値など)で補完することで、不完全なデータでも計算を行います。

どちらの方法を選択するかは、データの性質や分析の目的によって異なります。ただし、欠損値が多数存在する場合やデータの偏りが大きい場合には、欠損値の補完による計算結果には注意が必要です。

まとめ

平均値、中央値はデータの集計や分析を行う上で重要な指標になります。

本記事では、Pandasデータフレームの平均値、中央値の求め方を紹介しました。