データの可視化は、データ解析において非常に重要な役割を果たします。Pythonは、データの可視化に優れたライブラリが豊富に用意されているため、データ解析において非常に便利です。本記事では、Pythonを使った分布図作成の方法について解説します。
必要なライブラリのインストール方法
Pythonで分布図を作成するためには、以下のライブラリをインストールする必要があります。
- matplotlib
- seaborn
- pandas
これらのライブラリは、pipを使って簡単にインストールすることができます。
!pip install matplotlib seaborn pandas
データセットの準備方法
本記事では、seabornライブラリに含まれるtipsデータセットを使用します。tipsデータセットは、ウェイトレスが受け取ったチップの金額や、食事の合計金額などを含むデータセットです。
以下のコードを実行して、tipsデータセットを読み込みます。
import seaborn as sns tips = sns.load_dataset("tips") tips.head()
実行結果:
total_bill tip sex smoker day time size 0 16.99 1.01 Female No Sun Dinner 2 1 10.34 1.66 Male No Sun Dinner 3 2 21.01 3.50 Male No Sun Dinner 3 3 23.68 3.31 Male No Sun Dinner 2 4 24.59 3.61 Female No Sun Dinner 4
tipsデータセットの各列の意味は以下の通りです。
- total_bill: 食事の合計金額
- tip: チップの金額
- sex: 性別
- smoker: 喫煙者か否か
- day: 曜日
- time: 昼食か夕食か
- size: 食事に来た人数
分布図を作成するためのコードの解説
Pythonで分布図を作成するためには、matplotlibやseabornライブラリを使用します。以下のコードを実行することで、tipsデータセットのtotal_bill列の分布図を作成することができます。
import matplotlib.pyplot as plt import seaborn as sns sns.histplot(data=tips, x="total_bill") plt.show()
実行結果:
このコードでは、まずmatplotlib.pyplotライブラリとseabornライブラリをインポートしています。次に、seaborn.histplot()関数を使用して、tipsデータセットのtotal_bill列の分布図を作成しています。x引数には、分布図を作成するためのデータ列を指定します。
実際に分布図を作成してみる
次に、Pythonを使って実際に分布図を作成してみましょう。以下のコードを実行することで、tipsデータセットのtotal_bill列とtip列の分布図を作成することができます。
sns.jointplot(data=tips, x="total_bill", y="tip") plt.show()
実行結果:
このコードでは、seaborn.jointplot()関数を使用して、tipsデータセットのtotal_bill列とtip列の散布図を作成しています。x引数とy引数には、散布図を作成するためのデータ列を指定します。
まとめ
Pythonを使って分布図を作成する方法について解説しました。matplotlibやseabornライブラリを使用することで、簡単にデータの分布や関係性を可視化することができます。また、分布図からは、データの分布や関係性を把握することができます。