RubyにはWebスクレイピングするために便利なライブラリ「Nokogiri」があります。
Rubyで開発を行う際に、
「スクレイピングのやり方がよくわからない」
「効率よくWebスクレイピングしたい」
のような問題に直面することがあります。
ここでは、スクレイピングするときに便利なNokogiriについて、
【基本】Nokogiriとは
【基本】Nokogiriの使い方
【実践】Nokogiriで各要素を取得する
などについてわかりやすく解説していきます。
Nokogiriはスクレイピングするときに非常に便利なライブラリですので、この機会に覚えておきましょう!
Webスクレイピングを効率よく行いたいと考えている方にとって、Nokogiriは非常に便利なツールです。しかし、スクレイピングの基本を押さえた上で、さらに一歩進んで収入を得るスキルを身につけたいと感じることはありませんか?そんな方には、生成AIとWeb制作を組み合わせたスキルを学ぶことができる環境を利用するのがおすすめです。
この環境では、実践的なスキルを身につけることができ、机上の空論ではなく、すぐに使える具体的なノウハウを学べます。生成AIの活用で得られる時間や収入、キャリアといった具体的な未来を描くことができるでしょう。少しでも興味がある方は、まずは一度セミナーの詳細を確認して、自分に合った方法を探してみませんか?
そもそもスクレイピングとは?
スクレイピングとは主にWebサイトからHTMLのデータを取得して、必要な要素を抽出、加工するための技術を指します。
Webスクレイピングは多くの検索エンジンでも使用され、Web上のデータにインデックス付けするときなどに使用されます。
スクレイピングを使用することでHTMLのタグなどを簡単に取り出すことができるので、Webサービス開発の現場ではよく使用される技術の1つになります。
Nokogiriとは?

公式サイト:http://www.nokogiri.org/
NokogiriはRubyでWebスクレイピングするときにの定番ライブラリです。
Nokogiriを使用するためには、「open-url」「nokogiri」の2つのライブラリが必要になります。
open-urlは標準で使用できるライブラリですが、「nokogiri」は別途インストールする必要があります。
インストールは以下のコマンドで行います。
$ gem install nokogiri
インストールできたら、Nokogiriの使い方について見ていきましょう!
Nokogiriの使い方
HTMLの情報を全て取得したい場合は、NokogiriでHTMLの引数に取得したいURLを指定します。
サンプルプログラム:
require 'nokogiri' require 'open-uri' # 対象のURL url = "https://www.sejuku.net/blog/" # NokogiriでURLの情報を取得する contents = Nokogiri::HTML(open(url),nil,"utf-8") puts contents
実行結果:
<!DOCTYPE html>
<!—[if IE 8]><html class=“ie8”><![endif]—><!—[if IE 9]><html class=“ie9”><![endif]—><!—[if gt IE 8]><!—><html lang=“ja” itemscope itemtype=“http://schema.org/WebSite” prefix=“og: http://ogp.me/ns#”> <!—<![endif]—>
〜
/* <





