スライドショー

【Pandas入門】DataFrame中の欠損値(NaN)の置換を行うdf.fillna

こんにちは!インストラクターのフクロウです。

PandasのDataFrameを使うと、データ解析の際に欠損値の対応を行う操作は豊富に提供されています。

この記事では、欠損値を別の値で置き換えるdf.fillnaメソッドを紹介します。

fillnaメソッドを使うと

  • 欠損値を特定の値で置き換える
  • 欠損値を列ごとに代表値で置き換える

などの操作が簡単にできますよ!

欠損値を削除するdf.dropnaと合わせて、df.fillnaの使い方を覚えてしまいましょう!

【Pandas入門】DataFrame中の欠損値(NaN)の削除を行うdf.dropna
更新日 : 2018年10月11日

欠損値

欠損値とは

PandasのDataFrameにおける欠損値とはNaN(Non a Number)で表される要素を言います。

NaNが入っているとNumPyの(ほとんどの)関数で通常の計算ができないので、ニューラルネットワークの学習中にこの値が紛れ込むと悲劇です。

すぐにNaNがすべての要素がNaNに汚染されてしまいます。

なのでNaNが入ったデータがあったら、これを削除したり別の値で置き換える必要があります。

PandasにおけるNaN扱いになる要素

以下がPandasでNaN扱いになります。

  • None
  • np.nan
  • math.nan
  • 要素数が足りないところ

実際にNaNが入ったDataFrameを作ってみましょう。

In [1]:
# ライブラリのインポート
import numpy as np
import pandas as pd
import math

# データの作成
data = [
    [1        ,2,     np.nan, np.nan], # 4要素
    [math.nan, 1,     2,            ], # 3要素
    [None,     None,  None,    None],  # 4要素
]

# データフレームの作成
df = pd.DataFrame(data)

# データフレームの表示
df
Out[1]:
0 1 2 3
0 1.0 2.0 NaN NaN
1 NaN 1.0 2.0 NaN
2 NaN NaN NaN NaN
In [2]:
# サンプルデータ2を作成
data2 = np.arange(12).reshape((3,4))
df2 = pd.DataFrame(data2)

# 欠損値を埋め込む
df2.at[1,2] = None

df2
Out[2]:
0 1 2 3
0 0 1 2.0 3
1 4 5 NaN 7
2 8 9 10.0 11

NaNの判別

NaNの判別方法はいくつかありますが、DataFrameを表示して見てNaNとなったものがそれである、というのが一番簡単です。

他には以下の関数でそれぞれの要素がNaNかどうかが判別できます。

  • pd.isnull
  • np.isnan
  • math.isnan
In [3]:
# 要素単体に対してNaNか判別

pd.isnull(df.at[1,0]) # NaNならTrue
Out[3]:
True
In [4]:
# DataFrame全体に対してNaNか判別

pd.isnull(df) # NaNならTrue, それ以外ならFalse
Out[4]:
0 1 2 3
0 False False True True
1 True False False True
2 True True True True

df.fillnaでNaNを置換

PandasのDataFrameで、欠損値(NaN)を別の値で置換するメソッドとしてfillnaがあります。

すべての値を同じ値に置換する

例えば全ての値を何かの値で置き換える、というそう探したいときは

df.fillna(置き換えたい値)

と書きます。

では例えば0で置き換えてみましょう。

In [5]:
df.fillna(0)
Out[5]:
0 1 2 3
0 1.0 2.0 0.0 0.0
1 0.0 1.0 2.0 0.0
2 0.0 0.0 0.0 0.0

列ごとに代表値を計算して置換する

よくやる操作として、列ごとに平均や中央値を使ってNaNを置き換える、というものがあります。こういうときは

df.fillna(df.メソッド())

と書きます。

では中央値(median)で置き換えてみましょう。

In [6]:
df.fillna(df.median())
Out[6]:
0 1 2 3
0 1.0 2.0 2.0 NaN
1 1.0 1.0 2.0 NaN
2 1.0 1.5 2.0 NaN
In [7]:
df2.fillna(df.median())
Out[7]:
0 1 2 3
0 0 1 2.0 3
1 4 5 2.0 7
2 8 9 10.0 11

列のすべての要素がNaNの場合、平均もNaNなので値は変わりません。

ですが一部でもNaN以外の値を持っている場合は置換が効きます。

平均値や中央値を使う場合は、DataFrameがある程度大きいときにやると安心感があります。

特定の要素で特定の値に置換する

DataFrameが小さい場合や、置換するといい値がわかっている場合は置き換える値を決め打ちできます。こういうときは

df.fillna({"列の名前": 特定の値})

と書きます。

ではやってみましょう。

In [8]:
df.fillna(
    {0:100,
     1:200,
     2:300
    }
)
Out[8]:
0 1 2 3
0 1.0 2.0 300.0 NaN
1 100.0 1.0 2.0 NaN
2 100.0 200.0 300.0 NaN

特定要素で置き換えるとき、すべての列に対して置き換えパターンを書く必要はありません

必要な分だけ辞書型で置き換えパターンを書いておけば、それでOKです!

最初に特定要素での置換を行ってから、次に代表値での置換を行うとミスがなくていいと思います。

まとめ

この記事では、DataFrameの欠損値を置換するdf.fillna関数を紹介しました。

fillnaという名前は他のライブラリで見かけない名前ですが、その効果は絶大です。

この関数とdropnaを使いこなすことで、Pandasを使ったデータ解析の前処理プロセスが簡単に行なえますよ!

LINEで送る
Pocket

ITエンジニアへ転職したい方におすすめ

自分を評価してくれる企業に転職して年収を上げたい! 自分のスキルにあった独自案件を知りたい!
エンジニアは今もっとも注目されている職業の1つ。エンジニアになって年収を増やしたい方や、あなたのスキルに見合った企業へ転職したいエンジニアの方も多いですよね。

しかし、大手の転職媒体は扱う求人数が多くても、誰もが登録しているので競争率もかなり高くなっています。そのため、あなたの条件に見合った企業を見つけても転職するためには、相応の努力とスキルが必要となります。

こういった媒体では、未経験からエンジニアを目指す方やエンジニア歴2〜3年で転職を考えている方にとって、最適な転職環境とはいえません。

そこでオススメしたいのが、未経験者や若手エンジニア向けの独自案件を多く掲載している「侍ワークス」です。

侍ワークスは、独自案件を多く掲載しているだけでなく、

・応募から就業まで一貫したサポート

・就業後もアフターフォロー

といった経験の浅い方や初めてエンジニアを目指す方にも安心のフォロー体制が整っています。もちろん登録は完全無料!しかも案件を見るだけなら登録も不要です。

まずは、お気軽にどんな求人があるか見てみてください。あなたにピッタリの企業がきっと見つかりますよ! 侍ワークスの求人情報を見る

書いた人

フクロウ

フクロウ

第一言語はPythonです。
皆さんRustやりましょう。