Pythonで分布図を作成する方法:初心者向けチュートリアル

データの可視化は、データ解析において非常に重要な役割を果たします。Pythonは、データの可視化に優れたライブラリが豊富に用意されているため、データ解析において非常に便利です。本記事では、Pythonを使った分布図作成の方法について解説します。

必要なライブラリのインストール方法

Pythonで分布図を作成するためには、以下のライブラリをインストールする必要があります。

  • matplotlib
  • seaborn
  • pandas

これらのライブラリは、pipを使って簡単にインストールすることができます。

1
!pip install matplotlib seaborn pandas

データセットの準備方法

本記事では、seabornライブラリに含まれるtipsデータセットを使用します。tipsデータセットは、ウェイトレスが受け取ったチップの金額や、食事の合計金額などを含むデータセットです。

以下のコードを実行して、tipsデータセットを読み込みます。

1
2
3
import seaborn as sns
tips = sns.load_dataset("tips")
tips.head()

実行結果:

1
2
3
4
5
6
total_bill  tip sex smoker  day time    size
0   16.99   1.01    Female  No  Sun Dinner  2
1   10.34   1.66    Male    No  Sun Dinner  3
2   21.01   3.50    Male    No  Sun Dinner  3
3   23.68   3.31    Male    No  Sun Dinner  2
4   24.59   3.61    Female  No  Sun Dinner  4

tipsデータセットの各列の意味は以下の通りです。

  • total_bill: 食事の合計金額
  • tip: チップの金額
  • sex: 性別
  • smoker: 喫煙者か否か
  • day: 曜日
  • time: 昼食か夕食か
  • size: 食事に来た人数

分布図を作成するためのコードの解説

Pythonで分布図を作成するためには、matplotlibやseabornライブラリを使用します。以下のコードを実行することで、tipsデータセットのtotal_bill列の分布図を作成することができます。

1
2
3
4
import matplotlib.pyplot as plt
import seaborn as sns
sns.histplot(data=tips, x="total_bill")
plt.show()

実行結果:

このコードでは、まずmatplotlib.pyplotライブラリとseabornライブラリをインポートしています。次に、seaborn.histplot()関数を使用して、tipsデータセットのtotal_bill列の分布図を作成しています。x引数には、分布図を作成するためのデータ列を指定します。

実際に分布図を作成してみる

次に、Pythonを使って実際に分布図を作成してみましょう。以下のコードを実行することで、tipsデータセットのtotal_bill列とtip列の分布図を作成することができます。

1
2
sns.jointplot(data=tips, x="total_bill", y="tip")
plt.show()

実行結果:

このコードでは、seaborn.jointplot()関数を使用して、tipsデータセットのtotal_bill列とtip列の散布図を作成しています。x引数とy引数には、散布図を作成するためのデータ列を指定します。

まとめ

Pythonを使って分布図を作成する方法について解説しました。matplotlibやseabornライブラリを使用することで、簡単にデータの分布や関係性を可視化することができます。また、分布図からは、データの分布や関係性を把握することができます。