« [R]同じ文字列を繰り返した文字列を作成する | トップページ | [R]パスカル行列を求める »

2026年2月 3日 (火)

[R]Webサイトのページを読み取る

rvectパッケージのread_html関数を使う。以下は、宮内庁の公式ウェブサイトの、天皇皇后両陛下の紹介ページを抜き出した例。戻り値はリスト。専用の関数を使うことで、当該ページ内の各種情報(表など)をきれいに取り出すことができる。

> library(rvest)
> r <- read_html("https://www.kunaicho.go.jp/about/history/history02.html")
> typeof(r)
[1] "list"
> mode(r)
[1] "list"
> class(r)
[1] "xml_document" "xml_node"

« [R]同じ文字列を繰り返した文字列を作成する | トップページ | [R]パスカル行列を求める »

R(インターネット)」カテゴリの記事

コメント

コメントを書く

コメントは記事投稿者が公開するまで表示されません。

(ウェブ上には掲載しません)

« [R]同じ文字列を繰り返した文字列を作成する | トップページ | [R]パスカル行列を求める »

無料ブログはココログ

■■

■■■