pandasでエクセルを読み込む際に列を指定する方法：効率的なデータ処理

エクセルファイルを扱う場合、pandasは非常に便利なライブラリです。pandasのread_excel関数を使うことで、エクセルファイルを簡単に読み込むことができます。しかし、大量のデータを扱う場合には、必要な列だけを読み込むことで処理速度を向上させることができます。

はじめに

本記事では、pandasを使ってエクセルファイルを読み込む際に列を指定する方法について解説します。具体的には、以下の内容について説明します。

pandasでエクセルファイルを読み込む基本手順：read_excel関数の使い方
read_excel関数の引数「usecols」を使った列指定：インデックスや列名を指定
列の範囲を指定して読み込む方法：連続した複数の列を指定
条件に応じて列を読み込む方法：関数を使って動的に列指定
読み込んだデータの加工と処理：データフレームの操作例

pandasでエクセルファイルを読み込む基本手順：read_excel関数の使い方

pandasを使ってエクセルファイルを読み込むには、read_excel関数を使用します。この関数には、エクセルファイルのパスやシート名、列名などを指定する引数があります。

まずは、以下の例を見てみましょう。この例では、sample.xlsxというエクセルファイルのSheet1を読み込みます。

import pandas as pd
df = pd.read_excel('sample.xlsx', sheet_name='Sheet1')
print(df)

このように、read_excel関数を使うことで、簡単にエクセルファイルを読み込むことができます。

read_excel関数の引数「usecols」を使った列指定：インデックスや列名を指定

次に、read_excel関数の引数「usecols」を使って、読み込む列を指定する方法を説明します。usecolsには、読み込む列を指定する方法が複数あります。例えば、以下のように、列名を指定することができます。

import pandas as pd
df = pd.read_excel('sample.xlsx', sheet_name='Sheet1', usecols=['A', 'C', 'E'])
print(df)

この例では、sample.xlsxのSheet1から、A列、C列、E列のデータを読み込んでいます。列名を指定する場合は、列名のリストをusecolsに渡します。

また、列のインデックスを指定することもできます。以下の例では、0列目、2列目、4列目のデータを読み込んでいます。

import pandas as pd
df = pd.read_excel('sample.xlsx', sheet_name='Sheet1', usecols=[0, 2, 4])
print(df)

このように、usecolsを使って、読み込む列を指定することができます。複数の列を指定する場合は、列名や列のインデックスをリスト形式で渡します。

列の範囲を指定して読み込む方法：連続した複数の列を指定

次に、列の範囲を指定して、連続した複数の列を読み込む方法を説明します。これには、以下のように、列の範囲を指定することができます。

import pandas as pd
df = pd.read_excel('sample.xlsx', sheet_name='Sheet1', usecols='A:C')
print(df)

この例では、A列からC列までのデータを読み込んでいます。

条件に応じて列を読み込む方法：関数を使って動的に列指定

次に、条件に応じて列を読み込む方法を説明します。この場合は、関数を使って動的に列を指定することができます。

以下の例では、特定の条件を満たす列だけを読み込む方法を示しています。

import pandas as pd
def select_columns(col_name):
    if 'A' in col_name:
        return True
    else:
        return False
df = pd.read_excel('sample.xlsx', sheet_name='Sheet1', usecols=lambda x: select_columns(x))

print(df)

この例では、A列が含まれる列だけを読み込んでいます。usecolsには、lambda関数を渡して、select_columns関数を呼び出しています。

読み込んだデータの加工と処理：データフレームの操作例

pandasで読み込んだデータを加工して処理する場合、データフレームを操作する必要があります。以下では、データフレームの操作例をいくつか紹介します。

列名の変更

まずは、列名の変更方法を説明します。以下の例では、読み込んだデータフレームの列名を変更しています。

import pandas as pd
df = pd.read_excel('sample.xlsx', sheet_name='Sheet1', usecols=['A', 'C', 'E'])

# 列名の変更
df = df.rename(columns={'A': 'Column1', 'C': 'Column2', 'E': 'Column3'})

print(df)

この例では、rename関数を使って、列名を変更しています。引数には、変更前の列名と変更後の列名を辞書形式で渡します。

特定の列のデータのみを抽出する

次に、特定の列のデータだけを抽出する方法を説明します。以下の例では、Column1とColumn2のデータだけを抽出しています。

import pandas as pd
df = pd.read_excel('sample.xlsx', sheet_name='Sheet1', usecols=['A', 'C', 'E'])

# 特定の列のデータのみを抽出
df = df[['A', 'C']]

# 列名の変更
df = df.rename(columns={'A': 'Column1', 'C': 'Column2'})

print(df)

この例では、DataFrameの[]演算子を使って、特定の列のデータを抽出しています。また、rename関数を使って、列名を変更しています。

条件に応じてデータを抽出する

最後に、条件に応じてデータを抽出する方法を説明します。以下の例では、Column1の値が10以上の行だけを抽出しています。

import pandas as pd
df = pd.read_excel('sample.xlsx', sheet_name='Sheet1', usecols=['A', 'C', 'E'])

# Column1の値が10以上の行だけを抽出
df = df[df['A'] >= 10]

print(df)

この例では、DataFrameの[]演算子を使って、条件に応じてデータを抽出しています。