【Python】pandasを使って指定範囲のデータの合計値を簡単に計算しよう!

はじめに

Pythonのライブラリの一つであるpandasは、データ分析において非常に便利なツールです。pandasを使えば、膨大な量のデータを扱うことができます。この記事では、pandasを使って指定範囲のデータの合計値を簡単に計算する方法を紹介します。

pandasの基本的な使い方

pandasを使うためには、まずはライブラリをインポートする必要があります。

import pandas as pd

pandasでは、データを扱うためにデータフレームという形式を使用します。データフレームを作成するには、pandasのread_csv()メソッドを使用します。

df = pd.read_csv("data.csv")

上記の例では、data.csvという名前のファイルを読み込んで、その内容をデータフレームのdfに格納しています。

指定範囲内のデータ合計値の計算方法

データフレームの中から、指定範囲のデータの合計値を計算するには、loc()メソッドを使用します。

たとえば、dfというデータフレームの中で、column1という列のうち、3行目から5行目までのデータの合計値を求めるには、以下のようにコードを書きます。

sum = df.loc[3:5, "column1"].sum()

上記の例では、loc()メソッドの引数に、3:5という範囲を指定しています。これにより、3行目から5行目までのデータが対象となります。そして、”column1″という引数に、合計値を求めたい列名を指定しています。最後に、sum()メソッドを呼び出して、合計値を求めています。

条件に基づいた範囲の指定

上記の例では、範囲を指定する際に3:5と具体的な行数を指定していますが、実際のデータ分析では条件に基づいた範囲の指定が必要な場合があります。pandasでは、条件に基づいた範囲の指定ができるquery()メソッドを提供しています。

たとえば、dfというデータフレームの中で、column2という列のうち、値が100以上の行のうち、最初の5行のデータの合計値を求めるには、以下のようにコードを書きます。

sum = df.query("column2 >= 100").iloc[:5]["column2"].sum()

上記の例では、query()メソッドの引数に、条件式”column2 >= 100″を指定しています。これにより、値が100以上の行が対象となります。そして、iloc()メソッドを呼び出して、最初の5行のデータを取得しています。最後に、[“column2”].sum()で、合計値を求めています。

複数のカラムに対する合計値の計算

pandasでは、複数のカラムに対する合計値の計算も簡単に行うことができます。たとえば、dfというデータフレームの中で、column3とcolumn4の合計値を求めるには、以下のようにコードを書きます。

sum = df[["column3", "column4"]].sum()

上記の例では、[[“column3”, “column4”]]で、計算したいカラム名を指定しています。最後に、sum()メソッドを呼び出して、合計値を求めています。

実践例:具体的なデータを使った計算手順

ここでは、実際のデータを使って、pandasを使ったデータの合計値の計算手順を説明します。

以下のようなCSVファイルがあるとします。

column1,column2,column3,column4
1,100,10,20
2,200,20,30
3,300,30,40
4,400,40,50
5,500,50,60

このCSVファイルを読み
# 込んで、column2とcolumn3の合計値を求める場合のコードは以下のようになります。

import pandas as pd
df = pd.read_csv("data.csv")
sum = df[["column2", "column3"]].sum()
print(sum)

上記のコードを実行すると、以下のような出力が得られます。

column2    1500
column3     150
dtype: int64

上記の出力では、column2とcolumn3の合計値がそれぞれ1500と150であることがわかります。

まとめ

pandasを使えば、指定範囲内のデータの合計値を簡単に計算することができます。loc()メソッドを使用して、具体的な範囲を指定する方法や、query()メソッドを使用して、条件に基づいた範囲を指定する方法があります。また、複数のカラムに対する合計値の計算も簡単に行うことができます。データ分析においては、pandasを使ってデータの加工や解析を行うことが非常に重要です。