【Python】pandasを使って基本統計量を簡単に取得する方法:データ解析入門

はじめに

データ解析において、基本統計量は非常に重要な役割を果たします。基本統計量とは、データの特徴を表す指標であり、平均値や中央値、最大値や最小値、分散や標準偏差、四分位数などがあります。これらの指標を把握することで、データの傾向や分布、ばらつきなどを理解することができます。

Pythonには、データ解析に便利なライブラリであるpandasがあります。pandasを使えば、基本統計量を簡単に取得することができます。この記事では、pandasを使って基本統計量を取得する方法について解説します。

基本統計量の重要性とデータ解析への応用

基本統計量は、データの特徴を表す指標であり、以下のような役割を果たします。

  • 平均値:データの中心傾向を表す指標。データのばらつきが少ない場合には有用。
  • 中央値:データの中央値を表す指標。データのばらつきが大きい場合には有用。
  • 最大値:データの最大値を表す指標。データの最大値や最小値を知ることで、外れ値の有無を確認できる。
  • 最小値:データの最小値を表す指標。
  • 標準偏差:データのばらつきを表す指標。平均値を中心としたデータの分布を表すことができる。
  • 分散:標準偏差の2乗を表す指標。データのばらつきを表す。
  • 四分位数:データを四等分する値。データのばらつきを表す。

基本統計量は、データ解析において様々な応用があります。例えば、以下のようなものがあります。

  • データの分布や傾向を理解することで、商品の需要予測や株価予測など、様々な予測モデルを構築することができる。
  • 異常値の検出や外れ値の除去を行うことで、データの正確性や信頼性を高めることができる。
  • データの比較や分析を行うことで、ビジネス上の意思決定や戦略の策定に役立てることができる。

pandasを用いたデータフレームの作成方法

pandasを使って基本統計量を取得するためには、まずはデータをpandasのデータフレームに変換する必要があります。pandasのデータフレームは、行と列からなる表形式のデータ構造です。

例えば、以下のようなCSVファイルがあるとします。

id,name,age,score
1,John,25,80
2,Mary,30,90
3,Bob,20,70
4,Alice,35,95
5,Mark,40,85

このCSVファイルをpandasのデータフレームに変換するには、以下のようなコードを実行します。

import pandas as pd

df = pd.read_csv("data.csv")
print(df)

このコードを実行すると、以下のような結果が得られます。

   id   name  age  score
0   1   John   25     80
1   2   Mary   30     90
2   3    Bob   20     70
3   4  Alice   35     95
4   5   Mark   40     85

#

これで、CSVファイルがpandasのデータフレームとして読み込まれました。

平均値、中央値、最大値、最小値の取得方法

次に、pandasを使って平均値、中央値、最大値、最小値を取得する方法について解説します。

平均値の取得方法

平均値を取得するには、pandasのmean()メソッドを使います。

import pandas as pd
df = pd.read_csv("data.csv")
mean = df["score"].mean()
print("平均値:", mean)
平均値: 84.0

上記のコードでは、CSVファイルからデータフレームを作成し、score列の平均値を計算しています。結果は、mean変数に格納され、print()関数を使って出力されます。

中央値の取得方法

中央値を取得するには、pandasのmedian()メソッドを使います。

import pandas as pd

df = pd.read_csv("data.csv")
median = df["score"].median()

print("中央値:", median)

上記のコードでは、CSVファイルからデータフレームを作成し、score列の中央値を計算しています。結果は、median変数に格納され、print()関数を使って出力されます。

最大値と最小値の取得方法

最大値と最小値を取得するには、pandasのmax()メソッドとmin()メソッドを使います。

import pandas as pd

df = pd.read_csv("data.csv")
max_value = df["score"].max()
min_value = df["score"].min()

print("最大値:", max_value)
print("最小値:", min_value)

上記のコードでは、CSVファイルからデータフレームを作成し、score列の最大値と最小値を計算しています。結果は、それぞれmax_value変数とmin_value変数に格納され、print()関数を使って出力されます。

標準偏差、分散、四分位数の取得方法

次に、pandasを使って標準偏差、分散、四分位数を取得する方法について解説します。

標準偏差と分散の取得方法

標準偏差と分散を取得するには、pandasのstd()メソッドとvar()メソッドを使います。

import pandas as pd

df = pd.read_csv("data.csv")
std_value = df["score"].std()
var_value = df["score"].var()

print("標準偏差:", std_value)
print("分散:", var_value)

上記のコードでは、CSVファイルからデータフレームを作成し、score列の標準偏差と分散を計算しています。結果は、それぞれstd_value変数とvar_value変数に格納され、print()関数を使って出力されます。

四分位数の取得方法

四分位数を取得するには、pandasのquantile()メソッドを使います。

import pandas as pd

df = pd.read_csv("data.csv")
q1 = df["score"].quantile(0.25)
q2 = df["score"].quantile(0.5)
q3 = df["score"].quantile(0.75)

print("第1四分位数:", q1)
print("第2四分位数(中央値):", q2)
print("第3四分位数:", q3)

上記のコードでは、CSVファイルからデータフレームを作成し、score列の第1四分位数、第2四分位数、第3四分位数を計算しています。それぞれの四分位数は、quantile()メソッドの引数に百分位数を指定することで取得できます。結果は、q1変数、q2変数、q3変数に格納され、print()関数を使って出力されます。

一度に複数の基本統計量を取得する方法(.describe()メソッド)

最後に、pandasを使って一度に複数の基本統計量を取得する方法について解説します。pandasのデータフレームには、describe()メソッドがあります。このメソッドを使うことで、平均値、中央値、最大値、最小値、標準偏差、四分位数など、複数の基本統計量を一度に取得することができます。

import pandas as pd

df = pd.read_csv("data.csv")
result = df["score"].describe()

print(result)

上記のコードでは、CSVファイルからデータフレームを作成し、score列の基本統計量を一度に取得しています。結果は、describe()メソッドの戻り値であるpandasのSeriesオブジェクトに格納され、print()関数を使って出力されます。

まとめ

この記事では、pandasを使って基本統計量を簡単に取得する方法について解説しました。まずは、データの分布や傾向を理解することが重要であることを説明しました。次に、pandasを用いたデータフレームの作成方法を紹介しました。そして、平均値、中央値、最大値、最小値、標準偏差、分散、四分位数の取得方法について説明しました。最後に、一度に複数の基本統計量を取得する方法として、describe()メソッドを紹介しました。

データ解析は、ビジネスや科学などの多岐にわたる分野で活用されています。pandasを使って基本統計量を簡単に取得することで、データ解析に必要な情報を簡単に取得できます。ぜひ、この記事を参考にして、データ解析に挑戦してみてください。