pandas mergeでnanが出現する理由と対処法：データ結合のトラブル対応

データ分析の現場でよく使われるPythonのライブラリの一つにPandasがあります。Pandasを使えば、データの整理・加工・集計・可視化などが容易にできます。その中でも、複数のデータを結合する処理は非常に重要で、Pandasにはmergeというメソッドが用意されています。しかし、merge処理の結果、nan（欠損値）が出現することがよくあります。本記事では、Pandas mergeでnanが出現する理由と対処法について解説します。

Pandas mergeの基本概念

Pandasのmergeメソッドは、複数のデータフレームを指定されたキー（列）を基準に結合する処理を行います。結合の種類には、inner join（内部結合）、outer join（外部結合）、left join（左外部結合）、right join（右外部結合）があります。

たとえば、以下のような2つのデータフレームdf1とdf2があるとします。

import pandas as pd
import numpy as np

df1 = pd.DataFrame({'key': ['A', 'B', 'C', 'D'], 'value': [1, 2, 3, 4]})
df2 = pd.DataFrame({'key': ['B', 'D', 'E', 'F'], 'value': [5, 6, 7, 8]})


これらのデータフレームをkeyを基準にinner joinで結合するには、以下のようにmergeメソッドを使います。
result = pd.merge(df1, df2, on='key', how='inner')
print(result)

実行結果は以下のようになります。
  key  value_x  value_y
0   B        2       5
1   D        4       6

上記の例では、keyがBとDの行が両方のデータフレームに存在するため、その2行が結合されています。
nanが出現する原因
merge処理でnanが出現する原因はいくつかありますが、主なものを以下に示します。
キー（列）に重複がある場合
merge処理でnanが出現する最も一般的な原因は、結合キーに重複がある場合です。たとえば、以下のような2つのデータフレームdf1とdf2があるとします。
df1 = pd.DataFrame({'key': ['A', 'B', 'C', 'D'], 'value': [1, 2, 3, 4]})
df2 = pd.DataFrame({'key': ['B', 'B', 'D', 'D'], 'value': [5, 6, 7, 8]})

これらのデータフレームをkeyを基準にouter joinで結合するには、以下のようにmergeメソッドを使います。
result = pd.merge(df1, df2, on='key', how='outer')
print(result)

実行結果は以下のようになります。
  key  value_x  value_y
0   A        1      NaN
1   B        2      5.0
2   B        2      6.0
3   C        3      NaN
4   D        4      7.0
5   D        4      8.0
結果として、df2のkey列に含まれないAとCにnanが発生します。
キー（列）に欠損値が含まれる場合
キー（列）に欠損値が含まれる場合にも、merge処理でnanが発生することがあります。たとえば、以下のような2つのデータフレームdf1とdf2があるとします。
df1 = pd.DataFrame({'key': ['A', 'B', np.nan, 'D'], 'value': [1, 2, 3, 4]})
df2 = pd.DataFrame({'key': ['B', 'D', 'E', 'F'], 'value': [5, 6, 7, 8]})

これらのデータフレームをkeyを基準にinner joinで結合するには、以下のようにmergeメソッドを使います。
result = pd.merge(df1, df2, on='key', how='inner')
print(result)

実行結果は以下のようになります。
  key  value_x  value_y
0   B      2.0       5
1   D      4.0       6

上記の例では、df1のkey列に欠損値が含まれていますが、inner joinで結合する際には欠損値が除外されます。outer joinの場合は表示されます。
mergeでの結合方法の選択
merge処理には、inner join（内部結合）、outer join（外部結合）、left join（左外部結合）、right join（右外部結合）の4つの結合方法があります。これらの違いを簡単に説明すると、

inner join：結合するキーが両方のデータフレームに存在する場合に結合する。
outer join：結合するキーがどちらかのデータフレームに存在する場合に結合する。
left join：左側のデータフレームに存在する全ての行について、結合するキーが右側のデータフレームに存在する場合に結合する。
right join：右側のデータフレームに存在する全ての行について、結合するキーが左側のデータフレームに存在する場合に結合する。

どの結合方法を選択するかによって、結合結果に欠損値が生じる可能性が異なります。inner joinでは結合キーが両方のデータフレームに存在する場合にのみ結合するため、欠損値が生じることはほとんどありません。一方、outer joinやleft join、right joinでは、片方のデータフレームに存在する行については欠損値が生じる可能性があります。
nanが出現する主なケースと対処法
merge処理でnanが発生する主なケースと、それに対処する方法を以下にまとめます。
ケース1：結合キーに重複がある場合
結合キーに重複がある場合は、以下のいずれかの方法で対処します。

重複行を削除する
重複行を集約する

たとえば、以下のような2つのデータフレームdf1とdf2があるとします。
df1 = pd.DataFrame({'key': ['A', 'B', 'C', 'D', 'D'], 'value': [1, 2, 3, 4, 5]})
df2 = pd.DataFrame({'key': ['B', 'D', 'E', 'F'], 'value': [6, 7, 8, 9]})

これらのデータフレームをkeyを基準にinner joinで結合する場合は、重複行を削除することでnanを回避できます。
df1.drop_duplicates(subset='key', inplace=True)
df2.drop_duplicates(subset='key', inplace=True)
result = pd.merge(df1, df2, on='key', how='inner')
print(result)

実行結果は以下のようになります。
  key  value_x  value_y
0   B        2       6
1   D        4       7

重複行を集約する方法は、groupbyメソッドを使って結合キーでグループ化し、集約関数（たとえば平均値や合計値など）を適用することで実現できます。
ケース2：結合キーに欠損値が含まれる場合
結合キーに欠損値が含まれる場合は、以下のいずれかの方法で対処します。

欠損値を含む行を削除する
欠損値を置換する

たとえば、以下のような2つのデータフレームdf1とdf2があるとします。
df1 = pd.DataFrame({'key': ['A', 'B', np.nan, 'D'], 'value': [1, 2, 3, 4]})
df2 = pd.DataFrame({'key': ['B', 'D', 'E', 'F'], 'value': [5, 6, 7, 8]})

これらのデータフレームをkeyを基準にinner joinで結合する場合は、欠損値を含む行を削除することでnanを回避できます。
df1.dropna(subset=['key'], inplace=True)
df2.dropna(subset=['key'], inplace=True)
result = pd.merge(df1, df2, on='key', how='inner')
print(result)

実行結果は以下のようになります。
  key  value_x  value_y
0   B      2.0       5
1   D      4.0       6

欠損値を置換する方法は、fillnaメソッドを使って特定の値（たとえば0や平均値など）で置換することで実現できます。
データクレンジングとnan対策
merge処理でnanが発生する原因は、データに欠損値が含まれていることが多いです。欠損値は、データ分析において非常に重要な問題であり、正確な分析結果を得るためには、適切な欠損値処理が必要です。欠損値処理には、以下のような方法があります。

欠損値を含む行を削除する
欠損値を置換する
欠損値を予測する

欠損値を含む行を削除する方法は、欠損値が多い場合には適していません。欠損値を置換する方法は、欠損値が少ない場合には有効ですが、置換方法によっては分析結果に歪みを生じることがあります。欠損値を予測する方法は、欠損値が多い場合に有効ですが、予測モデルの精度によっては、分析結果に歪みを生じることがあります。
よって、欠損値処理は、データの性質や分析目的に応じて、適切な方法を選択する必要があります。また、データ分析の前処理として、データクレンジングを行うことも重要です。データクレンジングとは、データの欠損値や異常値を除去したり、データの整合性を確保するための処理です。
まとめ
本記事では、Pandas mergeでnanが発生する原因と対処法について説明しました。

merge処理でnanが発生する原因は、結合キーに欠損値が含まれている場合や、重複行が存在する場合があります。
結合キーに欠損値が含まれている場合は、欠損値を含む行を削除するか、欠損値を置換することで対処できます。
重複行が存在する場合は、重複行を削除することで対処できます。
欠損値処理には、欠損値を含む行を削除する方法、欠損値を置換する方法、欠損値を予測する方法があります。
データクレンジングは、データの欠損値や異常値を除去したり、データの整合性を確保するための重要な処理です。

欠損値処理は、データ分析において非常に重要な問題であり、適切な方法を選択することが必要です。また、データクレンジングを行うことで、データ分析の前処理を適切に行うことができます。
本記事を参考にして、Pandas mergeでのnan対策について理解を深め、データ分析における欠損値処理やデータクレンジングの重要性を理解していただければ幸いです。