はじめに
ピボットテーブルは、データの集計や集計結果の表示に便利な機能です。特に、データフレームの形式でデータを保持している場合には、Pandasのピボットテーブル機能を活用することで、簡単にデータの集計や可視化を行うことができます。
Pandasのピボットテーブルの概要と利点
Pandasのピボットテーブルは、Excelのピボットテーブルと同様の機能を提供します。具体的には、以下のような利点があります。
- 複数の軸での集計が可能
- 異なるデータ型の集計が可能
- 集計結果の表示が柔軟
データの準備と読み込み
まずは、ピボットテーブルを使ってデータを集計するためのデータを準備しましょう。ここでは、ある企業の売上データを例に説明します。
import pandas as pd # データの読み込み data = pd.read_csv('sales_data.csv')
ピボットテーブルの基本的な作成方法
Pandasのピボットテーブルを作成するには、pivot_table
関数を使用します。基本的な構文は以下の通りです。
pd.pivot_table(data, values, index="column_name", columns="column_name", aggfunc)
各引数の意味は以下の通りです。
data
: データフレームvalues
: 集計する値の列index
: 行に表示する列columns
: 列に表示する列aggfunc
: 集計方法
合計値を計算する方法とオプション
ピボットテーブルを使って合計値を計算するには、aggfunc
引数に合計値を計算する関数を指定します。一般的な合計値の計算方法としては、sum
関数を使用します。
pd.pivot_table(data, values, index="column_name", columns="column_name", aggfunc=sum)
また、aggfunc
引数には他の集計関数も指定することができます。例えば、平均値を計算する場合はmean
関数を使用します。
pd.pivot_table(data, values, index="column_name", columns="column_name", aggfunc=mean)
実践例:ピボットテーブルを使ったデータ分析
ここでは、具体的なデータ分析の例を紹介します。例として、ある企業の売上データを使って、商品ごとの売上合計を計算してみましょう。
# 商品ごとの売上合計を計算 pivot_table(data, values='売上', index='商品名', aggfunc=sum)
まとめ
Pandasのピボットテーブルを使うことで、簡単にデータの集計や可視化を行うことができます。合計値を計算する方法やオプションについても理解し、データ分析の効率化に活用しましょう。