Excelファイルはビジネスにおいて広く使用されています。pandasを使えば、Excelファイルを簡単に読み込むことができます。しかし、大量のデータがある場合、すべての列を読み込むと処理が遅くなることがあります。この記事では、pandasを使用してExcelファイルから特定の列だけを読み込む方法について説明します。
pandasでExcelファイルを効率的に扱う方法の概要
pandasは、データ処理のためのPythonライブラリです。Excelファイルを含むさまざまなデータ形式を読み込むことができます。pandasを使えば、Excelファイルを効率的に読み込むことができます。pandasでは、ExcelファイルをDataFrameというオブジェクトに格納します。
import pandas as pd # Excelファイルを読み込み、DataFrameに格納する df = pd.read_excel('sample.xlsx')
ここでは、pandasを使ってExcelファイルを読み込み、DataFrameに格納しています。
特定の列だけを読み込む方法の基本
pandasを使用してExcelファイルから特定の列だけを読み込む方法はいくつかあります。
列名を指定してExcelファイルを読み込む方法
Excelファイルを読み込むときに、usecols
パラメータを使用して列名を指定することができます。以下の例では、Excelファイルから”Name”と”Age”の列だけを読み込んでいます。
import pandas as pd # "Name"と"Age"の列だけを読み込む df = pd.read_excel('sample.xlsx', usecols=['Name', 'Age']) print(df)
この例では、usecols
パラメータに”Name”と”Age”を指定しています。これにより、”Name”と”Age”の列だけが読み込まれ、DataFrameに格納されます。
列インデックスを指定してExcelファイルを読み込む方法
Excelファイルを読み込むときに、usecols
パラメータに列インデックスを指定
することもできます。以下の例では、Excelファイルから1列目と3列目を読み込んでいます。
import pandas as pd # 1列目と3列目を読み込む df = pd.read_excel('sample.xlsx', usecols=[0, 2]) print(df)
この例では、usecols
パラメータに0と2を指定しています。これにより、1列目と3列目が読み込まれ、DataFrameに格納されます。
3つ以上の列を指定してExcelファイルを読み込む方法
Excelファイルを読み込むときに、usecols
パラメータに3つ以上の列を指定することもできます。以下の例では、Excelファイルから1列目から3列目までを読み込んでいます。
import pandas as pd # 1列目から3列目までを読み込む df = pd.read_excel('sample.xlsx', usecols=[0, 1, 2]) print(df)
この例では、usecols
パラメータに0、1、2を指定しています。これにより、1列目から3列目までが読み込まれ、DataFrameに格納されます。
まとめ
pandasを使ってExcelファイルから特定の列だけを読み込む方法について説明しました。usecols
パラメータを使用することで、列名または列インデックスを指定してExcelファイルから特定の列だけを読み込むことができます。
Excelファイルから必要なデータだけを読み込むことで、処理が高速化され、メモリの使用量も削減できます。また、必要な列だけを読み込むことで、データの取り扱いも容易になります。
以上で、【Python】pandasでExcelファイルを読み込む際に特定の列だけを指定する方法について説明しました。