Pythonを使ってデータの統計量を確認する

データ分析や機械学習において、データの統計量を確認することは非常に重要です。
Pythonを使ってデータの統計量を確認する方法を紹介します。

こんな人におすすめ

・Pythonでデータの統計量を確認したい
・Pythonでデータの基本統計量を確認したい
・Pythonでデータの相関係数を確認したい

主なライブラリ

pandas

本ページで使用するライブラリをインポートするときは以下のコードを使用します。

import pandas as pd

データの読み込み

まずは、データを読み込みます。ここでは、Pandasライブラリを使用して、CSVファイルを読み込む例を示します。

import pandas as pd

# データの読み込み
df = pd.read_csv('data.csv')

データの基本統計量の確認

次に、データの基本統計量を確認します。ここでは、describe()関数を使用して、データの基本統計量を一覧表示します。

# 基本統計量の確認
df.describe()

describe()関数は、以下のような基本統計量を表示します。

count:データの個数
mean:平均値
std:標準偏差
min:最小値
25%:第1四分位数
50%:中央値(第2四分位数)
75%:第3四分位数
max:最大値

データの分布をヒストグラムで確認

データの分布を確認することも重要です。ここでは、hist()関数を使用して、データのヒストグラムを表示する例を示します。

# ヒストグラムの表示
df.hist()

データの相関関係の確認

最後に、データの相関関係を確認します。ここでは、corr()関数を使用して、データの相関係数を表示する例を示します。

# 相関行列の表示
df.corr()

corr()関数は、各列のペアの相関係数を計算します。相関係数は、-1から1の間で取ります。相関係数が正の場合は正の相関があり、負の場合は負の相関があります。相関が1に近づくほど強い正の相関があり、相関が-1に近づくほど強い負の相関があると言えます。

まとめ

以上が、Pythonを使ってデータの統計量を確認する方法です。データ分析や機械学習の前処理をする際の確認において、データの統計量を確認することは非常に重要です。

データの統計量を確認する際には、必要に応じて可視化することも重要です。上記の例では、ヒストグラムを表示することで、データの分布を確認しました。他にも、箱ひげ図や散布図などを使用して、データの分布や外れ値の有無を確認することができます。

また、データの相関関係を確認することも重要です。相関関係を確認することで、データの特徴を把握することができます。例えば、2つの変数が正の相関関係にある場合、一方の変数が大きくなると、もう一方の変数も大きくなる傾向があると言えます。

データ分析を行う際や前処理の前には、データの統計量を確認することを忘れずに行い、正確な分析結果を得るようにしましょう。