pandasデータフレームの表示方法一覧!効率的なデータ分析のために
はじめに
データ分析をする際、データを読み込んだ後、必ず行う作業があります。それは、読み込んだデータを表示することです。pandasは、データ分析において頻繁に使用されるライブラリであり、データフレームの表示方法も多彩です。本記事では、pandasデータフレームの表示方法を一覧で紹介し、効率的なデータ分析を行うためのノウハウを提供します。
Pandasデータフレーム表示方法の重要性
データフレームの表示方法は、データ分析の初期段階で非常に重要です。データを読み込んでから、どのように表示するかによって、データの全体像をつかむことができます。また、どのように表示するかによって、データフレームを使った効率的なデータ分析ができるようになります。
効率的なデータ分析のための表示方法一覧の紹介
次に、pandasデータフレームの表示方法を一覧で紹介します。データフレームを使った効率的なデータ分析をするために、必ず抑えておくべき内容です。
こんな人におすすめ
- データ分析を始めたばかりの人
- データフレームの表示方法を知りたい人
- データフレームを使った効率的なデータ分析をしたい人
使用する主なライブラリ
本記事では、主にpandasとnumpyのライブラリを使用します。
Pandasデータフレーム表示方法一覧
以下では、pandasデータフレームの表示方法を紹介します。
データフレームの基本的な表示方法
pandasデータフレームの基本的な表示方法は、print()を使用することです。ただし、大きなデータフレームの場合は、表示される行数が多くなり、全体像をつかみにくいことがあります。そのため、head()やtail()を使って、先頭や末尾の数行だけを表示することができます。
# pandasライブラリのインポート import pandas as pd # CSVファイルの読み込み df = pd.read_csv('sample.csv') # データフレームの表示(先頭5行) print(df.head()) # データフレームの表示(末尾5行) print(df.tail())
部分的な表示方法(先頭・末尾・ランダムな行の表示)
前述のhead()やtail()のほか、ランダムな行を表示するにはsample()を使用します。
# pandasライブラリのインポート import pandas as pd # CSVファイルの読み込み df = pd.read_csv('sample.csv') # データフレームの表示(先頭10行) print(df.head(10)) # データフレームの表示(末尾10行) print(df.tail(10)) # データフレームの表示(ランダムな10行) print(df.sample(10))
条件に基づくデータ表示方法
条件に基づいたデータの表示方法として、loc[]やiloc[]を使用します。条件には、列名や行番号を指定することができます。
# pandasライブラリのインポート import pandas as pd # CSVファイルの読み込み df = pd.read_csv('sample.csv') # 'A'列が100以上のデータを表示 print(df.loc[df['A'] >= 100]) # 3行目から5行目までのデータを表示 print(df.iloc[3:6])
ソートして表示する方法
データフレームのソート方法として、sort_values()を使用します。ソート対象の列や昇順/降順を指定することができます。
# pandasライブラリのインポート import pandas as pd # CSVファイルの読み込み df = pd.read_csv('sample.csv') # 'A'列で昇順にソートして表示 print(df.sort_values('A')) # 'B'列で降順にソートして表示 print(df.sort_values('B', ascending=False))
列や行を隠して表示する方法
列や行を削除して表示するには、drop()を使用します。列を削除する場合は、axis=1を指定します。
# pandasライブラリのインポート import pandas as pd # CSVファイルの読み込み df = pd.read_csv('sample.csv') # 'C'列を削除して表示 print(df.drop('C', axis=1)) # 2行目を削除して表示 print(df.drop(1))
表示設定のカスタマイズ
表示設定のカスタマイズには、set_option()を使用します。表示する列の最大表示幅、最大表示行数などを設定することができます。
# pandasライブラリのインポート import pandas as pd # CSVファイルの読み込み df = pd.read_csv('sample.csv') # 最大表示列数を5に設定して表示 pd.set_option('display.max_columns', 5) print(df) # 最大表示行数を10に設定して表示 pd.set_option('display.max_rows', 10) print(df)
まとめ
pandasデータフレームの表示方法について、基本的な表示方法から条件に基づくデータ表示方法、ソートや列や行を隠す方法、表示設定のカスタマイズ方法まで紹介しました。データフレームを使った効率的なデータ分析には、データフレームの表示方法を工夫することが欠かせません。また、データフレームの表示方法を工夫することで、データの傾向や特徴を把握することができ、データビジュアライゼーションの前段階としても活用できます。ぜひ、本記事を参考にして、効率的なデータ分析を行いましょう。