Pythonで分布図を作成する方法:初心者向けチュートリアル

データの可視化は、データ解析において非常に重要な役割を果たします。Pythonは、データの可視化に優れたライブラリが豊富に用意されているため、データ解析において非常に便利です。本記事では、Pythonを使った分布図作成の方法について解説します。

必要なライブラリのインストール方法

Pythonで分布図を作成するためには、以下のライブラリをインストールする必要があります。

  • matplotlib
  • seaborn
  • pandas

これらのライブラリは、pipを使って簡単にインストールすることができます。

!pip install matplotlib seaborn pandas

データセットの準備方法

本記事では、seabornライブラリに含まれるtipsデータセットを使用します。tipsデータセットは、ウェイトレスが受け取ったチップの金額や、食事の合計金額などを含むデータセットです。

以下のコードを実行して、tipsデータセットを読み込みます。

import seaborn as sns
tips = sns.load_dataset("tips")
tips.head()

実行結果:

total_bill	tip	sex	smoker	day	time	size
0	16.99	1.01	Female	No	Sun	Dinner	2
1	10.34	1.66	Male	No	Sun	Dinner	3
2	21.01	3.50	Male	No	Sun	Dinner	3
3	23.68	3.31	Male	No	Sun	Dinner	2
4	24.59	3.61	Female	No	Sun	Dinner	4

tipsデータセットの各列の意味は以下の通りです。

  • total_bill: 食事の合計金額
  • tip: チップの金額
  • sex: 性別
  • smoker: 喫煙者か否か
  • day: 曜日
  • time: 昼食か夕食か
  • size: 食事に来た人数

分布図を作成するためのコードの解説

Pythonで分布図を作成するためには、matplotlibやseabornライブラリを使用します。以下のコードを実行することで、tipsデータセットのtotal_bill列の分布図を作成することができます。

import matplotlib.pyplot as plt
import seaborn as sns
sns.histplot(data=tips, x="total_bill")
plt.show()

実行結果:

このコードでは、まずmatplotlib.pyplotライブラリとseabornライブラリをインポートしています。次に、seaborn.histplot()関数を使用して、tipsデータセットのtotal_bill列の分布図を作成しています。x引数には、分布図を作成するためのデータ列を指定します。

実際に分布図を作成してみる

次に、Pythonを使って実際に分布図を作成してみましょう。以下のコードを実行することで、tipsデータセットのtotal_bill列とtip列の分布図を作成することができます。

sns.jointplot(data=tips, x="total_bill", y="tip")
plt.show()

実行結果:

このコードでは、seaborn.jointplot()関数を使用して、tipsデータセットのtotal_bill列とtip列の散布図を作成しています。x引数とy引数には、散布図を作成するためのデータ列を指定します。

まとめ

Pythonを使って分布図を作成する方法について解説しました。matplotlibやseabornライブラリを使用することで、簡単にデータの分布や関係性を可視化することができます。また、分布図からは、データの分布や関係性を把握することができます。