【Python】Pandasのデータフレームで目的変数と説明変数を抽出、関係を可視化する方法

はじめに

データ分析において、目的変数と説明変数の関係を調べることは非常に重要です。Pandasを使えば、データフレームから簡単に目的変数と説明変数を抽出し、関係を可視化することができます。この記事では、Pandasを使った目的変数と説明変数の抽出方法と、データの相関や関係性の確認方法、そして目的変数と説明変数の関係を可視化する方法を紹介します。

目的変数と説明変数の基本とその関係性

まずは、目的変数と説明変数の基本について説明します。目的変数とは、分析の対象となる変数であり、説明変数との関係を分析することが目的です。一方、説明変数とは、目的変数に影響を与えると考えられる変数であり、分析の説明役を担います。

例えば、ある商品の販売数を予測する場合、販売数が目的変数、広告費や天気などが説明変数となります。そして、広告費や天気などの説明変数が目的変数である販売数にどのような影響を与えるかを分析することが、目的変数と説明変数の関係性を調べることになります。

Pandasでデータフレームを読み込む方法

まずは、データフレームを読み込む方法について説明します。Pandasを使うと、CSVファイルやExcelファイルなどのデータを簡単にデータフレームとして読み込むことができます。

import pandas as pd

# CSVファイルからデータフレームを読み込む
df = pd.read_csv('data.csv')

# Excelファイルからデータフレームを読み込
df = pd.read_excel('data.xlsx')

上記の例では、CSVファイルから読み込んだ場合とExcelファイルから読み込んだ場合の両方を示しています。読み込んだデータフレームは、変数dfに代入されます。

目的変数と説明変数を抽出する方法

次に、目的変数と説明変数を抽出する方法について説明します。データフレームから目的変数と説明変数を抽出するには、ilocやlocを使います。

ilocは、行と列のインデックスを指定してデータを抽出する方法です。locは、行と列のラベルを指定してデータを抽出する方法です。

以下の例では、ilocを使って目的変数をsales列、説明変数をadvertising列とtemperature列に抽出しています。

# 目的変数をsales列、説明変数をadvertising列とtemperature列に抽出する
y = df.iloc[:, 0]  # sales列を抽出
X = df.iloc[:, [1, 2]]  # advertising列とtemperature列を抽出

iloc[:, 0]は、全ての行(:)から0番目の列(sales列)を抽出することを示しています。iloc[:, [1, 2]]は、全ての行(:)から1番目の列(advertising列)と2番目の列(temperature列)を抽出することを示しています。

データの相関や関係性の確認方法

データフレームから目的変数と説明変数を抽出したら、次にデータの相関や関係性を確認することが重要です。データの相関を確認するためには、corr()メソッドを使います。corr()メソッドは、各列の相関係数を算出して返します。

以下の例では、corr()メソッドを使って目的変数と説明変数の相関係数を算出しています。

# 相関係数を算出する
corr_matrix = df.corr()
print(corr_matrix)

このようにすると、各列の相関係数が算出されます。

目的変数と説明変数の関係を可視化する方法

最後に、目的変数と説明変数の関係を可視化する方法について説明します。可視化には、MatplotlibやSeabornなどのライブラリを使うことができます。

以下の例では、Seabornを使って目的変数と説明変数の関係を可視化しています。

import seaborn as sns

# 散布図を描画する
sns.pairplot(df, x_vars=['advertising', 'temperature'], y_vars='sales', size=7, aspect=0.7, kind='reg')

この例では、x_varsに説明変数の列名のリストを、y_varsに目的変数の列名を指定しています。sizeやaspectは、描画するグラフのサイズやアスペクト比を指定するパラメータです。kindは、描画するグラフの種類を指定します。この例では、regを指定して回帰直線を描画しています。

まとめ

Pandasを使えば、データフレームから簡単に目的変数と説明変数を抽出し、関係を可視化することができます。この記事では、Pandasを使った目的変数と説明変数の抽出方法と、データの相関や関係性の確認方法、そして目的変数と説明変数の関係を可視化する方法を紹介しました。これらの手法を使って、データ分析をより効果的に行ってください。