[Python]翻訳を使ったデータ処理！Pandasで多言語を扱う方法｜自作で機械学習モデル・AIの使い方を学ぶ

はじめに

データ処理において、多言語のデータを扱うことは非常に重要です。特に、グローバルに展開している企業や国際的なプロジェクトでは、さまざまな言語で書かれたデータを効率的に処理する必要があります。

この記事では、Pythonのデータ処理ライブラリであるPandasを使用して、翻訳を活用したデータ処理の方法について解説します。Pandasは、データの読み込みや加工、分析などさまざまな機能を提供しており、多言語データの処理にも優れています。

翻訳のデータ処理での利用価値とシーン

翻訳を活用したデータ処理には、以下のような利点があります。

多言語のデータを一元管理できる
言語に依存しない処理が可能
国際的なプロジェクトやグローバルな企業にとって必須の機能

具体的なシーンとしては、以下のような場合が挙げられます。

多言語の商品名や説明文を統一的に処理する
海外の顧客データを効率的に分析する
複数言語のテキストデータを統合的に処理する

Pandasでデータフレームを読み込む方法

Pandasでは、データを扱うための基本的なデータ構造として「データフレーム」を使用します。データフレームは、行と列から構成される表形式のデータであり、Excelのようなイメージで扱うことができます。

データフレームを作成するためには、まずはじめに必要なデータを読み込む必要があります。Pandasでは、さまざまな形式のデータを読み込むことができますが、ここではCSV形式のデータを例に説明します。

import pandas as pd
# CSVファイルの読み込み
df = pd.read_csv('data.csv')
# データフレームの表示
print(df.head())

上記のコードでは、’data.csv’という名前のCSVファイルを読み込んでいます。読み込んだデータは、変数dfに格納されています。read_csv()関数の引数には、読み込むCSVファイルのパスを指定します。

PandasのDataFrameに設定された日本語を英語に変換する

Pandasを使ってデータを読み込むことができたら、次は翻訳APIを使ってデータを翻訳してみましょう。今回は翻訳のためにgoogletransを利用して日本語を英語に変換します。

PandasとAPIを連携させるための処理を行います。以下のコードは、googletransを使った関数をapplyでPandasのDataFrameに適用する場合の例です。

from googletrans import Translator

# インスタンスの作成
translator = Translator()

# 翻訳に使用する関数を定義
def tran_ja_en(text):
    translated = translator.translate(text, src="ja", dest="en");
    return translated.text

# PamdasのDataFrameに翻訳用の関数を適用
df['en_col'] = df['ja_col'].apply(tran_ja_en)print(df)

PandasのDataFrameに設定された英語を日本語に変換する

Pandasで翻訳されたデータを扱うためには、データフレームに翻訳結果を追加する必要があります。以下のコードは、データフレームの特定の列に翻訳結果を追加する例です。

# 翻訳に使用する関数を定義
def tran_en_ja(text):
    translated = translator.translate(text, src="en", dest="ja");
    return translated.text

# PamdasのDataFrameに翻訳用の関数を適用
df['ja_col'] = df['英語'].apply(tran_en_ja)

print(df)