【機械学習入門】データ解析に最適!pandasを使ってみよう!

こんにちは、侍エンジニアブログ編集部のフクロウです!

PandasというPythonライブラリ、最近いろんなところで使われるようになりました。このライブラリ、データ解析や機械学習の分野では今や使うのが当たり前の人気者です! Pandasを知らなかった皆さん、この記事からPandasの勉強を始めてみませんか?

この記事では、

  • Pandasとは
  • Pandasの基本的な使い方
  • DataFrameを使った統計情報の出し方
  • DataFrameを使った可視化

について解説していきますよ! numpy.arrayから一歩進んだデータ構造を理解して、Pandasの便利機能を使いこなしちゃいましょう!

目次

Pandasとは

[リンク:https://pandas.pydata.org]

概要

Pandasはデータサイエンス・機械学習を行うときに非常に役立つ機能がまとめられたライブラリです。

特にデータフレームというデータ形式が使いやすい! これはコード中でimport pandas as pdしたとき、pd.DataFrameというクラスで提供されています。

 

[DataFrameの例]

このデータフレームは行や列の名前をつけることができ、内部ではNumpyのarrayを持っているので簡単に他のライブラリと連携する事ができます。

R言語などで人気のあったデータフレームがPythonでも使えるようになって、R言語からPythonに引っ越してきた人も多いです。Pandasの基本的な使い方については、侍の別記事で解説しました。

おすすめのPandas本

[Pythonデータサイエンスハンドブック ―Jupyter、NumPy、pandas、Matplotlib、scikit-learnを使ったデータ分析、機械学習 単行本(ソフトカバー) – 2018/5/26
Jake VanderPlas (著), 菊池 彰 (翻訳)]

Pandasの本は意外に種類がありますが、PandasやPythonのバージョンアップを考えると新しめの本がおすすめです。この[Pythonデータサイエンスハンドブック]はその中でもおすすめのひとつ。この本は英語版(翻訳元になった本)がWebで無料公開されています。

>>> Python Data Science Handbook

また、本の中で使われるコードについても、Jupyterの.ipynb形式で配布されています。

>> jakevdp/PythonDataScienceHandbook

これらをチェックして、中身を確認してから購入するのがおすすめです。もちろん英語でも大丈夫だという方ならば、これをそのまま使って勉強を進めることもできます。

Pandasの使い方

Pandasの使い方については、侍でこの記事を抜いて三記事に渡って解説をしています。

Pandasでデータ操作

まずはcsvなどのファイルからPandasにデータを入力する方法を学びましょう。

Pandasを使えば、CSVをはじめとしてExcelやその他のファイル形式から簡単にPythonの世界にデータを読み込むことが可能です。

DataFrameの基本操作

DataFrameは最近のデータ解析作業においてなくてはならないクラスです。このクラスの基本操作を学んでPandasの便利機能を享受しましょう。

DataFrameを使えば、簡単に統計情報などを計算できます。Pandasにはこの他にも、ベクトルを扱うクラスやテンソルを扱うクラスがあります。

DataFrameを理解したらこれらについても勉強を進めると力になりますよ!

Pandasで可視化

Pandasのクラスからシームレスに可視化を行うことができます。

また、最近ではDataFrameを引数に受け取るようなライブラリ(seabornなど)も存在しています。使いこなして最小の労力で最大の結果を生み出しましょう!

まとめ

この記事では、データ解析や機械学習で広く使われるPythonライブラリ、Pandasを紹介しました。Pandasは開発が活発で、これからもどんどん新しい機能が追加されていくでしょう。

ここでまとめたPandasの情報を忘れてしまうことがあったら、またこの記事を思い出して読んでみてくださいね。

この記事を書いた人

第一言語はPythonです。
皆さんRustやりましょう。

目次