【Python】Pandasでデータ個数を簡単カウント!使い方と実践例

はじめに

Pythonのデータ分析ライブラリであるPandasは、多くの機能を提供しています。その中でも、データの個数をカウントする機能は非常に便利です。この記事では、Pandasの value_counts() 関数を使ったデータの個数カウント方法を解説します。

データ個数カウントの重要性

データ分析において、データの個数カウントは非常に重要です。例えば、あるカラムについて個数をカウントすることで、そのカラムの特徴を把握することができます。また、データの前処理において、欠損値の数を確認することで、欠損値の扱い方を決めることができます。

value_counts関数の基本的な使い方

value_counts() 関数は、SeriesオブジェクトまたはDataFrameオブジェクトに対して、ユニークな値の出現回数をカウントするために使用されます。基本的な使い方は以下の通りです。

import pandas as pd
# Seriesオブジェクトに対するvalue_counts()の例
s = pd.Series([1, 1, 2, 3, 3, 3])
print(s.value_counts())
# DataFrameオブジェクトに対するvalue_counts()の例
df = pd.DataFrame({'A': [1, 2, 2, 3, 3, 3], 'B': ['a', 'a', 'b', 'b', 'b', 'c']})
print(df['A'].value_counts())

上記のコードでは、value_counts() 関数を使ってSeriesオブジェクトとDataFrameオブジェクトに対して、それぞれ値の出現回数をカウントしています。出力結果は以下のようになります。

3    3
1    2
2    1
dtype: int64
3    3
2    2
1    1
Name: A, dtype: int64

上記の出力結果から、Seriesオブジェクトについては、最も頻繁に出現する値が3であり、3が3回出現していることがわかります。また、DataFrameオブジェクトについては、カラムAにおいて3が3回、2が2回、1が1回出現していることがわかります。

カラムごとの個数カウント方法

データ分析において、あるカラムに対して個数をカウントすることは非常に重要です。Pandasを使うことで、カラムごとの個数カウントが簡単に行えます。以下は、DataFrameオブジェクトに対して、あるカラムについて個数をカウントする方法の例です。

import pandas as pd
# DataFrameオブジェクトに対する個数カウントの例
df = pd.DataFrame({'A': [1, 2, 2, 3, 3, 3], 'B': ['a', 'a', 'b', 'b', 'b', 'c']})
print(df['B'].value_counts())

上記のコードでは、DataFrameオブジェクトに対して、カラムBにおいて値の出現回数をカウントしています。出力結果は以下のようになります。

b    3
a    2
c    1
Name: B, dtype: int64

上記の出力結果から、カラムBにおいては、最も頻繁に出現する値がbであり、bが3回出現していることがわかります。

欠損値の個数カウント方法

データ分析において、欠損値の扱いは非常に重要です。Pandasを使うことで、欠損値の個数を簡単にカウントすることができます。以下は、DataFrameオブジェクトに対して、欠損値の個数をカウントする方法の例です。

import pandas as pd
import numpy as np
# DataFrameオブジェクトに対する欠損値の個数カウントの例
df = pd.DataFrame({'A': [1, 2, np.nan, 3], 'B': [np.nan, 'a', 'b', 'b']})
print(df.isnull().sum())

上記のコードでは、DataFrameオブジェクトに対して、isnull() 関数を使って欠損値をTrue、非欠損値をFalseとしたDataFrameオブジェクトを作成し、sum() 関数を使ってTrueの数を合計しています。出力結果は以下のようになります

A    1
B    1
dtype: int64

上記の出力結果から、カラムAに1つの欠損値、カラムBに1つの欠損値があることがわかります。

条件に合ったデータの個数カウント

データ分析において、ある条件に合ったデータの個数カウントは非常に重要です。Pandasを使うことで、条件に合ったデータの個数カウントが簡単に行えます。以下は、DataFrameオブジェクトに対して、ある条件に合ったデータの個数をカウントする方法の例です。

import pandas as pd
# DataFrameオブジェクトに対する条件に合ったデータの個数カウントの例
df = pd.DataFrame({'A': [1, 2, 2, 3, 3, 3], 'B': ['a', 'a', 'b', 'b', 'b', 'c']})
print(df[df['B']=='b'].count())

上記のコードでは、DataFrameオブジェクトに対して、カラムBが’b’である行数をカウントしています。出力結果は以下のようになります。

A    3
B    3
dtype: int64

上記の出力結果から、カラムBが’b’である行は3行であることがわかります。

まとめ

この記事では、Pandasの value_counts() 関数を使ったデータの個数カウント方法を解説しました。また、カラムごとの個数カウント方法や欠損値の個数カウント方法、条件に合ったデータの個数カウント方法についても説明しました。データ分析においては、これらのカウント方法を使うことで、データの特徴を把握したり、欠損値の扱い方を決めたり、ある条件に合ったデータの個数をカウントすることができます。