Pandasは、Pythonでデータ解析を行うためのライブラリです。データフレームという形式でデータを扱うことができ、その操作性の高さから、多くのデータサイエンティストに愛用されています。この記事では、Pandasで使われる主要な属性とその活用法を解説します。
Pandasの属性とは何か?
Pandasには、データフレームを操作するための様々な属性が存在します。属性とは、オブジェクトが持つ値や状態を表す変数のことです。Pandasの属性を使うことで、データフレームの形状や統計情報、メモリ使用量などを取得することができます。
データフレームの形状を把握する属性
データフレームの形状を把握するための属性として、shape
、ndim
、size
があります。
shape
は、データフレームの行数と列数をタプルで返します。ndim
は、データフレームの次元数を返します。size
は、データフレームの要素数を返します。
以下のコードは、データフレームの形状を把握するための属性を使う例です。
import pandas as pd # サンプルデータの作成 df = pd.DataFrame({'名前': ['山田', '田中', '鈴木'], '年齢': [20, 30, 40], '性別': ['男', '女', '男']}) # shapeの取得 print('shape:', df.shape) # ndimの取得 print('ndim:', df.ndim) # sizeの取得 print('size:', df.size)
実行結果は以下の通りです。
shape: (3, 3) ndim: 2 size: 9
データフレームのインデックスとカラム情報を取得する属性
データフレームのインデックスとカラム情報を取得するための属性として、index
、columns
があります。
index
は
、データフレームのインデックス(行ラベル)を返します。columns
は、データフレームのカラム名を返します。
以下のコードは、データフレームのインデックスとカラム情報を取得するための属性を使う例です。
import pandas as pd # サンプルデータの作成 df = pd.DataFrame({'名前': ['山田', '田中', '鈴木'], '年齢': [20, 30, 40], '性別': ['男', '女', '男']}) df.index = ['a', 'b', 'c'] # インデックスの設定 # indexの取得 print('index:', df.index) # columnsの取得 print('columns:', df.columns)
実行結果は以下の通りです。
index: Index(['a', 'b', 'c'], dtype='object') columns: Index(['名前', '年齢', '性別'], dtype='object')
データフレームの基本統計情報を取得する属性
データフレームの基本統計情報を取得するための属性として、describe
、dtypes
があります。
describe
は、データフレームの基本統計情報(平均値、標準偏差、最小値、最大値など)を返します。dtypes
は、データフレームの各カラムのデータ型を返します。
以下のコードは、データフレームの基本統計情報を取得するための属性を使う例です。
import pandas as pd # サンプルデータの作成 df = pd.DataFrame({'名前': ['山田', '田中', '鈴木'], '年齢': [20, 30, 40], '性別': ['男', '女', '男']}) # describeの取得 print('describe:', df.describe()) # dtypesの取得 print('dtypes:', df.dtypes)
実行結果は以下の通りです。
describe: 年齢 count 3.000000 mean 30.000000 std 10.000000 min 20.000000 25% 25.000000 50% 30.000000 75% 35.000000 max 40.000000 dtypes: 名前 object 年齢 int64 性別 object dtype: object
データフレームのメモリ使用量を確認する属性
データフレームのメモリ使用量を確認するための属性として、memory_usage
があります。この属性を使うことで、各カラムが使用するメモリ量を取得することができます。
以下のコードは、データフレームのメモリ使用量を確認するための属性を使う例です。
import pandas as pd # サンプルデータの作成 df = pd.DataFrame({'名前': ['山田', '田中', '鈴木'], '年齢': [20, 30, 40], '性別': ['男', '女', '男']}) # memory_usageの取得 print('memory_usage:', df.memory_usage(deep=True))
実行結果は以下の通りです。
memory_usage: Index 128 名前 90 年齢 24 性別 62 dtype: int64
まとめ
この記事では、Pandasで使われる主要な属性とその活用法について解説しました。
shape
、ndim
、size
を使って、データフレームの形状を把握することができます。index
、columns
を使って、データフレームのインデックスとカラム情報を取得することができます。describe
、dtypes
を使って、データフレームの基本統計情報を取得することができます。memory_usage
を使って、データフレームのメモリ使用量を確認することができます。
Pandasの属性を使いこなせるようになることで、データ解析の効率が格段に上がることでしょう。