Pythonで学ぶ！sklearnを使った主成分分析の実践ガイド｜自作で機械学習モデル・AIの使い方を学ぶ

主成分分析とは何か

主成分分析とは、多次元データを少数の主成分に圧縮することで、データの構造を把握する手法です。例えば、人々の身体測定データを主成分分析することで、身長、体重、腕の長さなどの要素を組み合わせて、肥満度や体型を把握することができます。

Pythonとsklearnの環境設定

主成分分析を実践するには、Pythonとscikit-learn(sklearn)の環境が必要です。Pythonのインストール方法や、sklearnの導入方法については、以下の記事を参考にしてください。

主成分分析の基本的な流れ

主成分分析の基本的な流れは以下の通りです。

データの準備
データの標準化
共分散行列の算出
固有値と固有ベクトルの算出
主成分の選択
主成分得点の算出
主成分得点の解釈

Pythonとsklearnを用いた主成分分析の具体的なコード例

以下は、Pythonとsklearnを用いた主成分分析の具体的なコード例です。

import numpy as np
import pandas as pd
from sklearn.decomposition import PCA
from sklearn.preprocessing import StandardScaler
# データの準備
df = pd.read_csv('data.csv')
X = df.drop('target', axis=1)
# データの標準化
scaler = StandardScaler()
X_std = scaler.fit_transform(X)
# 主成分分析の実行
pca = PCA(n_components=2)
pca.fit(X_std)
X_pca = pca.transform(X_std)
# 主成分得点の解釈
print('explained variance ratio:', pca.explained_variance_ratio_)
print('singular values:', pca.singular_values_)
print('components:', pca.components_)