データ分析や機械学習において、データの統計量を確認することは非常に重要です。
Pythonを使ってデータの統計量を確認する方法を紹介します。
こんな人におすすめ
・Pythonでデータの統計量を確認したい
・Pythonでデータの基本統計量を確認したい
・Pythonでデータの相関係数を確認したい
主なライブラリ
pandas
本ページで使用するライブラリをインポートするときは以下のコードを使用します。
import pandas as pd
データの読み込み
まずは、データを読み込みます。ここでは、Pandasライブラリを使用して、CSVファイルを読み込む例を示します。
import pandas as pd # データの読み込み df = pd.read_csv('data.csv')
データの基本統計量の確認
次に、データの基本統計量を確認します。ここでは、describe()関数を使用して、データの基本統計量を一覧表示します。
# 基本統計量の確認 df.describe()
describe()関数は、以下のような基本統計量を表示します。
count:データの個数
mean:平均値
std:標準偏差
min:最小値
25%:第1四分位数
50%:中央値(第2四分位数)
75%:第3四分位数
max:最大値
データの分布をヒストグラムで確認
データの分布を確認することも重要です。ここでは、hist()関数を使用して、データのヒストグラムを表示する例を示します。
# ヒストグラムの表示 df.hist()
データの相関関係の確認
最後に、データの相関関係を確認します。ここでは、corr()関数を使用して、データの相関係数を表示する例を示します。
# 相関行列の表示 df.corr()
corr()関数は、各列のペアの相関係数を計算します。相関係数は、-1から1の間で取ります。相関係数が正の場合は正の相関があり、負の場合は負の相関があります。相関が1に近づくほど強い正の相関があり、相関が-1に近づくほど強い負の相関があると言えます。
まとめ
以上が、Pythonを使ってデータの統計量を確認する方法です。データ分析や機械学習の前処理をする際の確認において、データの統計量を確認することは非常に重要です。
データの統計量を確認する際には、必要に応じて可視化することも重要です。上記の例では、ヒストグラムを表示することで、データの分布を確認しました。他にも、箱ひげ図や散布図などを使用して、データの分布や外れ値の有無を確認することができます。
また、データの相関関係を確認することも重要です。相関関係を確認することで、データの特徴を把握することができます。例えば、2つの変数が正の相関関係にある場合、一方の変数が大きくなると、もう一方の変数も大きくなる傾向があると言えます。
データ分析を行う際や前処理の前には、データの統計量を確認することを忘れずに行い、正確な分析結果を得るようにしましょう。