RubyにはWebスクレイピングするために便利なライブラリ「Nokogiri」があります。
Rubyで開発を行う際に、
「スクレイピングのやり方がよくわからない」
「効率よくWebスクレイピングしたい」
のような問題に直面することがあります。
ここでは、スクレイピングするときに便利なNokogiriについて、
【基本】Nokogiriとは
【基本】Nokogiriの使い方
【実践】Nokogiriで各要素を取得する
などについてわかりやすく解説していきます。
Nokogiriはスクレイピングするときに非常に便利なライブラリですので、この機会に覚えておきましょう!
そもそもスクレイピングとは?
スクレイピングとは主にWebサイトからHTMLのデータを取得して、必要な要素を抽出、加工するための技術を指します。
Webスクレイピングは多くの検索エンジンでも使用され、Web上のデータにインデックス付けするときなどに使用されます。
スクレイピングを使用することでHTMLのタグなどを簡単に取り出すことができるので、Webサービス開発の現場ではよく使用される技術の1つになります。
Nokogiriとは?

公式サイト:http://www.nokogiri.org/
NokogiriはRubyでWebスクレイピングするときにの定番ライブラリです。
Nokogiriを使用するためには、「open-url」「nokogiri」の2つのライブラリが必要になります。
open-urlは標準で使用できるライブラリですが、「nokogiri」は別途インストールする必要があります。
インストールは以下のコマンドで行います。
$ gem install nokogiri
インストールできたら、Nokogiriの使い方について見ていきましょう!
Nokogiriの使い方
HTMLの情報を全て取得したい場合は、NokogiriでHTMLの引数に取得したいURLを指定します。
サンプルプログラム:
require 'nokogiri' require 'open-uri' # 対象のURL url = "https://www.sejuku.net/blog/" # NokogiriでURLの情報を取得する contents = Nokogiri::HTML(open(url),nil,"utf-8") puts contents
実行結果:
<!DOCTYPE html>
<!—[if IE 8]><html class=“ie8”><![endif]—><!—[if IE 9]><html class=“ie9”><![endif]—><!—[if gt IE 8]><!—><html lang=“ja” itemscope itemtype=“http://schema.org/WebSite” prefix=“og: http://ogp.me/ns#”> <!—<![endif]—>
〜
/* <





