【Pandas入門 pd.read_csv】CSVファイルをデータフレームに読み込む!

こんにちは、インストラクターのフクロウです。データ解析を行う際に、データ形式がCSVファイルで公開されているとプログラムに読み込みやすくて嬉しいですね。

さて、この記事ではCSVファイルをデータフレームに読み込む方法を紹介します。CSVファイルの読み込みにはpd.read_csv関数を使うことで簡単に試せますよ!

記事で是非使い方を覚えてみませんか?

ヘッダー情報のないcsvファイルの読み取り方

まずはヘッダー情報のないcsvファイルを読み込みましょう。この関数はNumPyのnp.loadtxtとは違い、文字列のカラムと数字のカラムが混じったようなファイルでも読み込みが可能です。

重要なのはheaderプロパティですね。データの解説がファイルの先頭に書かれてないきれいなcsvファイルの場合、header=Noneと指定してあげればOKです。

iris dataset csvファイルの読み込み

まずはCSVファイルを用意します。以下のリンクはUCI Machine Learning Repositoryというサイトへのものです。

このページからデータをcsvファイルをダウンロードして、”iris.csv”という名前で保存しましょう。PythonスクリプトやJupyter NotebookのipynbファイルがあるディレクトリにCSVファイルをおいておくと、読み込みの際に楽です。

ファイルの読み込みはpd.read_csv関数で行います。最初に書いたとおり、headerパラメータをNoneにして実行しましょう。

ちゃんと読み込めましたね。このようにheader=Noneとしてやると、CSVから作られたDataFrameのカラム名は自動的にIndexが割り振られます。注意点としては、headerを指定しないと、CSVデータの一行目がカラムの名前に割り当てられることがある点です。

zoo dataset csvファイルの読み込み

同じ要領で、別のデータセットも読み込んでみましょう。zooデータを以下からダウンロードして、”zoo.csv”として保存します。

これを読み込むには以下のコードを使いましょう。

うまく行っていますね。DataFrameとして読み込むと、NumPyよりも柔軟にデータの前処理ができます。データ解析では欠損値への対処や文字列型への操作など、前処理の段階でやっておきたい重要な作業が山積みです。解析の最初の一歩として、DataFrameへのデータセット読み込みはおすすめですよ!

ヘッダー情報のあるcsvファイルの読み取り方

parkinsons dataset csvファイルの読み込み

CSVファイルにヘッダー情報がある場合、headerパラメータにヘッダーの終わりの行を指定します。

例題として、パーキンソン病のデータセットを使います。

これを”parkinsons.csv”として保存します。このデータは以下のような形になっています。

headerとしてCSVの各列の名前が書かれていますね。こんなときはheader=0としてあげればOKです。

ヘッダー情報があるならば、カラムの名前もCSVファイルを読み込むだけで設定できます。

まとめ

この記事では、PandasでCSVファイルを読み込む方法を解説しました。Pandasはデータ解析において広く使われているツールです。これを使うことで前処理の手間が効率化できるのが嬉しいですね。

是非使ってみてくださいね!

LINEで送る
Pocket

最短でエンジニアを目指すなら侍エンジニア塾

cta_under_bnr

侍エンジニア塾は業界で初めてマンツーマンレッスンを始めたプログラミングスクールです。これまでの指導実績は16,000名を超え、未経験から数多くのエンジニアを輩出しています。

あなたの目的に合わせてカリキュラムを作成し、現役エンジニア講師が専属であなたの学習をサポートするため効率よく学習を進めることができますよ。

無理な勧誘などは一切ありません。まずは無料体験レッスンを受講ください。

無料体験レッスンの詳細はこちら

書いた人

フクロウ

フクロウ

第一言語はPythonです。
皆さんRustやりましょう。

おすすめコンテンツ

あなたにぴったりなプログラミング学習プランを無料で診断!

プログラミング学習の効率を劇的に上げる学習メソッドを解説