はじめに
データ分析において、パレート図は非常に有用なグラフの1つです。パレート図は、80対20の法則(パレートの法則)を可視化するために使われます。この法則は、例えば、20%の原因が80%の結果を生み出すなどの場面でしばしば現れます。
本記事では、Pythonのデータ分析ライブラリであるpandasを使用して、パレート図を作成し、データ分析に応用する方法を紹介します。
pandasを使ったパレート図作成:必要なライブラリとデータの準備
まず、pandasとmatplotlibをインポートします。
import pandas as pd import matplotlib.pyplot as plt
次に、データを読み込みます。今回は、あるECサイトの顧客データを例にとります。
df = pd.read_csv('customer_data.csv')
読み込んだデータを確認します。
print(df.head())
パレート図の描画:pandasでのデータ処理とグラフ作成手順
次に、データを整形してパレート図を作成します。まず、購入金額の合計を算出します。
total = df['purchase_amount'].sum()
次に、購入金額の合計に占める各顧客の貢献度を算出します。
df['contribution'] = df['purchase_amount'] / total
貢献度を降順に並べ替えます。
df = df.sort_values('contribution', ascending=False)
累積貢献度を算出します。
df['cumulative_contribution'] = df['contribution'].cumsum()
最後に、パレート図を描画します。
fig, ax1 = plt.subplots() ax2 = ax1.twinx() ax1.bar(df.index, df['purchase_amount'], color='royalblue') ax2.plot(df.index, df['cumulative_contribution'], color='red') ax2.axhline(y=0.8, color='gray', linestyle='--') ax1.set_xticks(df.index) ax1.set_xticklabels(df['customer_id']) ax1.set_xlabel('Customer ID') ax1.set_ylabel('Purchase Amount') ax2.set_ylabel('Cumulative Contribution') ax2.set_ylim([0, 1]) plt.title('Pareto Chart of Customer Purchase Amount') plt.show()
これにより、顧客ごとの購入金額と累積貢献度を示すパレート図が作成されます。
パレート図を活用したデータ分析の実例:80対20の法則を活かす
パレート図を使用することで、データ分析に有用な情報を得ることができます。例えば、ECサイトの場合、パレート図から、どの顧客が売上の大半を占めているか、どの商品が売上の大半を占めているかなどを把握することができます。
また、パレート図は、80対20の法則を可視化するためにも使われます。80対20の法則とは、例えば、20%の原因が80%の結果を生み出すという法則です。パレート図を使用することで、どの要素が売上の80%を占めているか、どの要素にフォーカスすることで売上を最大化できるかなどを把握することができます。
たとえば、ECサイトの場合、パレート図から、売上の80%を占める上位20%の顧客を把握することができます。この上位20%の顧客に対して、特別なサービスや割引を提供することで、顧客満足度を高め、売上を伸ばすことができます。
まとめ
本記事では、Pythonのデータ分析ライブラリであるpandasを使用して、パレート図を作成し、データ分析に応用する方法を紹介しました。
パレート図は、データ分析において非常に有用なグラフの1つであり、80対20の法則を可視化するためにも使われます。ECサイトの場合、パレート図を使用することで、どの顧客や商品にフォーカスすべきかなどを把握することができます。
売り上げ分析を行う際は、パレート図を活用して売上を最大化しましょう。