[R]Webサイトのページを読み取る
rvectパッケージのread_html関数を使う。以下は、宮内庁の公式ウェブサイトの、天皇皇后両陛下の紹介ページを抜き出した例。戻り値はリスト。専用の関数を使うことで、当該ページ内の各種情報(表など)をきれいに取り出すことができる。
> library(rvest)
> r <- read_html("https://www.kunaicho.go.jp/about/history/history02.html")
> typeof(r)
[1] "list"
> mode(r)
[1] "list"
> class(r)
[1] "xml_document" "xml_node"
« [R]同じ文字列を繰り返した文字列を作成する | トップページ | [R]パスカル行列を求める »
「R(インターネット)」カテゴリの記事
- [R]ウェブサイトから読み取ったHTMLファイルをファイルに出力する(2026.03.14)
- [R]ウェブサイトの応答ヘッダーの取得に失敗する(2026.02.18)
- [R]エラーメッセージ「open.connection(x, "rb") でエラー: コネクションを開くことができません」(2026.02.17)
- [R]Webサイトのページを読み取る(2026.02.03)
- [R]ウェブサイトのページの表の中身を読み取る(2025.10.17)

コメント