[Python]Pandasでピボットテーブルを使いこなす合計値の計算

はじめに

ピボットテーブルは、データの集計や集計結果の表示に便利な機能です。特に、データフレームの形式でデータを保持している場合には、Pandasのピボットテーブル機能を活用することで、簡単にデータの集計や可視化を行うことができます。

Pandasのピボットテーブルの概要と利点

Pandasのピボットテーブルは、Excelのピボットテーブルと同様の機能を提供します。具体的には、以下のような利点があります。

  • 複数の軸での集計が可能
  • 異なるデータ型の集計が可能
  • 集計結果の表示が柔軟

データの準備と読み込み

まずは、ピボットテーブルを使ってデータを集計するためのデータを準備しましょう。ここでは、ある企業の売上データを例に説明します。

import pandas as pd
# データの読み込み
data = pd.read_csv('sales_data.csv')

ピボットテーブルの基本的な作成方法

Pandasのピボットテーブルを作成するには、pivot_table関数を使用します。基本的な構文は以下の通りです。

pd.pivot_table(data, values, index="column_name", columns="column_name", aggfunc)

各引数の意味は以下の通りです。

  • data: データフレーム
  • values: 集計する値の列
  • index: 行に表示する列
  • columns: 列に表示する列
  • aggfunc: 集計方法

合計値を計算する方法とオプション

ピボットテーブルを使って合計値を計算するには、aggfunc引数に合計値を計算する関数を指定します。一般的な合計値の計算方法としては、sum関数を使用します。

pd.pivot_table(data, values, index="column_name", columns="column_name", aggfunc=sum)

また、aggfunc引数には他の集計関数も指定することができます。例えば、平均値を計算する場合はmean関数を使用します。

pd.pivot_table(data, values, index="column_name", columns="column_name", aggfunc=mean)

実践例:ピボットテーブルを使ったデータ分析

ここでは、具体的なデータ分析の例を紹介します。例として、ある企業の売上データを使って、商品ごとの売上合計を計算してみましょう。

# 商品ごとの売上合計を計算
pivot_table(data, values='売上', index='商品名', aggfunc=sum)

まとめ

Pandasのピボットテーブルを使うことで、簡単にデータの集計や可視化を行うことができます。合計値を計算する方法やオプションについても理解し、データ分析の効率化に活用しましょう。