スライドショー

【Pandas入門】DataFrame中の欠損値(NaN)の置換を行うdf.fillna

こんにちは!インストラクターのフクロウです。

PandasのDataFrameを使うと、データ解析の際に欠損値の対応を行う操作は豊富に提供されています。

この記事では、欠損値を別の値で置き換えるdf.fillnaメソッドを紹介します。

fillnaメソッドを使うと

  • 欠損値を特定の値で置き換える
  • 欠損値を列ごとに代表値で置き換える

などの操作が簡単にできますよ!

欠損値を削除するdf.dropnaと合わせて、df.fillnaの使い方を覚えてしまいましょう!

【Pandas入門】DataFrame中の欠損値(NaN)の削除を行うdf.dropna
更新日 : 2018年10月11日

欠損値

欠損値とは

PandasのDataFrameにおける欠損値とはNaN(Non a Number)で表される要素を言います。

NaNが入っているとNumPyの(ほとんどの)関数で通常の計算ができないので、ニューラルネットワークの学習中にこの値が紛れ込むと悲劇です。

すぐにNaNがすべての要素がNaNに汚染されてしまいます。

なのでNaNが入ったデータがあったら、これを削除したり別の値で置き換える必要があります。

PandasにおけるNaN扱いになる要素

以下がPandasでNaN扱いになります。

  • None
  • np.nan
  • math.nan
  • 要素数が足りないところ

実際にNaNが入ったDataFrameを作ってみましょう。

In [1]:
# ライブラリのインポート
import numpy as np
import pandas as pd
import math

# データの作成
data = [
    [1        ,2,     np.nan, np.nan], # 4要素
    [math.nan, 1,     2,            ], # 3要素
    [None,     None,  None,    None],  # 4要素
]

# データフレームの作成
df = pd.DataFrame(data)

# データフレームの表示
df
Out[1]:
0 1 2 3
0 1.0 2.0 NaN NaN
1 NaN 1.0 2.0 NaN
2 NaN NaN NaN NaN
In [2]:
# サンプルデータ2を作成
data2 = np.arange(12).reshape((3,4))
df2 = pd.DataFrame(data2)

# 欠損値を埋め込む
df2.at[1,2] = None

df2
Out[2]:
0 1 2 3
0 0 1 2.0 3
1 4 5 NaN 7
2 8 9 10.0 11

NaNの判別

NaNの判別方法はいくつかありますが、DataFrameを表示して見てNaNとなったものがそれである、というのが一番簡単です。

他には以下の関数でそれぞれの要素がNaNかどうかが判別できます。

  • pd.isnull
  • np.isnan
  • math.isnan
In [3]:
# 要素単体に対してNaNか判別

pd.isnull(df.at[1,0]) # NaNならTrue
Out[3]:
True
In [4]:
# DataFrame全体に対してNaNか判別

pd.isnull(df) # NaNならTrue, それ以外ならFalse
Out[4]:
0 1 2 3
0 False False True True
1 True False False True
2 True True True True

df.fillnaでNaNを置換

PandasのDataFrameで、欠損値(NaN)を別の値で置換するメソッドとしてfillnaがあります。

すべての値を同じ値に置換する

例えば全ての値を何かの値で置き換える、というそう探したいときは

df.fillna(置き換えたい値)

と書きます。

では例えば0で置き換えてみましょう。

In [5]:
df.fillna(0)
Out[5]:
0 1 2 3
0 1.0 2.0 0.0 0.0
1 0.0 1.0 2.0 0.0
2 0.0 0.0 0.0 0.0

列ごとに代表値を計算して置換する

よくやる操作として、列ごとに平均や中央値を使ってNaNを置き換える、というものがあります。こういうときは

df.fillna(df.メソッド())

と書きます。

では中央値(median)で置き換えてみましょう。

In [6]:
df.fillna(df.median())
Out[6]:
0 1 2 3
0 1.0 2.0 2.0 NaN
1 1.0 1.0 2.0 NaN
2 1.0 1.5 2.0 NaN
In [7]:
df2.fillna(df.median())
Out[7]:
0 1 2 3
0 0 1 2.0 3
1 4 5 2.0 7
2 8 9 10.0 11

列のすべての要素がNaNの場合、平均もNaNなので値は変わりません。

ですが一部でもNaN以外の値を持っている場合は置換が効きます。

平均値や中央値を使う場合は、DataFrameがある程度大きいときにやると安心感があります。

特定の要素で特定の値に置換する

DataFrameが小さい場合や、置換するといい値がわかっている場合は置き換える値を決め打ちできます。こういうときは

df.fillna({"列の名前": 特定の値})

と書きます。

ではやってみましょう。

In [8]:
df.fillna(
    {0:100,
     1:200,
     2:300
    }
)
Out[8]:
0 1 2 3
0 1.0 2.0 300.0 NaN
1 100.0 1.0 2.0 NaN
2 100.0 200.0 300.0 NaN

特定要素で置き換えるとき、すべての列に対して置き換えパターンを書く必要はありません

必要な分だけ辞書型で置き換えパターンを書いておけば、それでOKです!

最初に特定要素での置換を行ってから、次に代表値での置換を行うとミスがなくていいと思います。

まとめ

この記事では、DataFrameの欠損値を置換するdf.fillna関数を紹介しました。

fillnaという名前は他のライブラリで見かけない名前ですが、その効果は絶大です。

この関数とdropnaを使いこなすことで、Pandasを使ったデータ解析の前処理プロセスが簡単に行なえますよ!

LINEで送る
Pocket

無料でSEからWebエンジニアへ転職しませんか?



侍エンジニア塾では、完全未経験の方から現在SEだけどプログラミングはやっていないという経験者まで、幅広い方々の人生を好転させるプログラミング指導を行ってきました。SEの方とお話していくなかで、

  • システムエンジニアという職業だけどコードが書けない
  • 事務作業が多くスキルがないため将来が不安
  • スクールに通うと完全未経験者と同じスタートになるからレベルが合わない
という、すでに知識があるSEならではのお悩みがあることに気づきました。そんな方におすすめなのが、弊社の「転職コース 」です。

弊社では、マンツーマンでレッスンを行いますので、現在お持ちの知識レベルからカリキュラムを作成いたします。さらにこちらの転職コースは無料で受講を始められて転職成功でそのまま卒業できるというとてもお得なコースとなっています。

既に知識のあるSEといっても転職は年齢が若いほど受かりやすいため、まずは無料体験レッスンで今の現状や理想の働き方について一緒に考えていきましょう。

まずは無料体験レッスンを予約する

書いた人

フクロウ

フクロウ

第一言語はPythonです。
皆さんRustやりましょう。

おすすめコンテンツ

あなたにぴったりなプログラミング学習プランを無料で診断!

プログラミング学習の効率を劇的に上げる学習メソッドを解説