【Python】Pandasで使われる主要な属性とその活用法を解説

Pandasは、Pythonでデータ解析を行うためのライブラリです。データフレームという形式でデータを扱うことができ、その操作性の高さから、多くのデータサイエンティストに愛用されています。この記事では、Pandasで使われる主要な属性とその活用法を解説します。

Pandasの属性とは何か?

Pandasには、データフレームを操作するための様々な属性が存在します。属性とは、オブジェクトが持つ値や状態を表す変数のことです。Pandasの属性を使うことで、データフレームの形状や統計情報、メモリ使用量などを取得することができます。

データフレームの形状を把握する属性

データフレームの形状を把握するための属性として、shapendimsizeがあります。

  • shapeは、データフレームの行数と列数をタプルで返します。
  • ndimは、データフレームの次元数を返します。
  • sizeは、データフレームの要素数を返します。

以下のコードは、データフレームの形状を把握するための属性を使う例です。

import pandas as pd

# サンプルデータの作成
df = pd.DataFrame({'名前': ['山田', '田中', '鈴木'], '年齢': [20, 30, 40], '性別': ['男', '女', '男']})

# shapeの取得
print('shape:', df.shape)
# ndimの取得
print('ndim:', df.ndim)
# sizeの取得
print('size:', df.size)

実行結果は以下の通りです。

shape: (3, 3)
ndim: 2
size: 9

データフレームのインデックスとカラム情報を取得する属性

データフレームのインデックスとカラム情報を取得するための属性として、indexcolumnsがあります。

  • index
    、データフレームのインデックス(行ラベル)を返します。
  • columnsは、データフレームのカラム名を返します。

以下のコードは、データフレームのインデックスとカラム情報を取得するための属性を使う例です。

import pandas as pd
# サンプルデータの作成
df = pd.DataFrame({'名前': ['山田', '田中', '鈴木'], '年齢': [20, 30, 40], '性別': ['男', '女', '男']})
df.index = ['a', 'b', 'c'] # インデックスの設定
# indexの取得
print('index:', df.index)
# columnsの取得
print('columns:', df.columns)

実行結果は以下の通りです。

index: Index(['a', 'b', 'c'], dtype='object')
columns: Index(['名前', '年齢', '性別'], dtype='object')

データフレームの基本統計情報を取得する属性

データフレームの基本統計情報を取得するための属性として、describedtypesがあります。

  • describeは、データフレームの基本統計情報(平均値、標準偏差、最小値、最大値など)を返します。
  • dtypesは、データフレームの各カラムのデータ型を返します。

以下のコードは、データフレームの基本統計情報を取得するための属性を使う例です。

import pandas as pd
# サンプルデータの作成
df = pd.DataFrame({'名前': ['山田', '田中', '鈴木'], '年齢': [20, 30, 40], '性別': ['男', '女', '男']})
# describeの取得
print('describe:', df.describe())
# dtypesの取得
print('dtypes:', df.dtypes)

実行結果は以下の通りです。

describe:              年齢
count   3.000000
mean   30.000000
std    10.000000
min    20.000000
25%    25.000000
50%    30.000000
75%    35.000000
max    40.000000
dtypes: 名前    object


年齢     int64
性別    object
dtype: object

データフレームのメモリ使用量を確認する属性

データフレームのメモリ使用量を確認するための属性として、memory_usageがあります。この属性を使うことで、各カラムが使用するメモリ量を取得することができます。

以下のコードは、データフレームのメモリ使用量を確認するための属性を使う例です。

import pandas as pd
# サンプルデータの作成
df = pd.DataFrame({'名前': ['山田', '田中', '鈴木'], '年齢': [20, 30, 40], '性別': ['男', '女', '男']})


# memory_usageの取得
print('memory_usage:', df.memory_usage(deep=True))

実行結果は以下の通りです。

memory_usage: Index    128
名前       90
年齢       24
性別       62
dtype: int64

まとめ

この記事では、Pandasで使われる主要な属性とその活用法について解説しました。

  • shapendimsizeを使って、データフレームの形状を把握することができます。
  • indexcolumnsを使って、データフレームのインデックスとカラム情報を取得することができます。
  • describedtypesを使って、データフレームの基本統計情報を取得することができます。
  • memory_usageを使って、データフレームのメモリ使用量を確認することができます。

Pandasの属性を使いこなせるようになることで、データ解析の効率が格段に上がることでしょう。