[R]ウェブサイトのページの表の中身を読み取る
rvectパッケージのhtml_table関数を使う。あらかじめread_html関数でページを読み取っておくこと。以下は、宮内庁の公式ウェブサイトの天皇皇后両陛下の紹介ページを2025年9月に抜き出した例。ページ内に表は四つあり、一つ目と二つ目の中身をそれぞれ表示している。ページから表は一括でしか読み取れないが、その際、表にヘッダ行がある場合は、headerオプションにTRUEを指定すること。
> library(rvest)
> html <- read_html("https://www.kunaicho.go.jp/about/history/history02.html")
> tbl <- html |> html_table(header = FALSE)
> length(tbl)
[1] 4
> mode(tbl)
[1] "list"
> tbl[[1]] |> as.data.frame() |> head(8)
X1 X2
1 お名前 徳仁(なるひと)
2 お続柄 上皇第1皇男子
3 お誕生日 昭和35年2月23日
4 ご称号 浩宮(ひろのみや)
5 お印 梓(あずさ)
6 成年式 昭和55年2月23日(ご年齢20歳)
7 立太子の礼 平成3年2月23日
8 ご即位 令和元年5月1日
> tbl[[2]] |> as.data.frame() |> head(5)
X1 X2
1 お名前 雅子(まさこ)
2 お続柄 小和田恆(おわだひさし)氏第1女子
3 お誕生日 昭和38年12月9日
4 お印 ハマナス
5 総裁職など 日本赤十字社 名誉総裁
« [R]tibbleを指定した列だけのtibbleに変換する | トップページ | [R]tibbleから指定した一列を取り出してベクトルにする »
「R(インターネット)」カテゴリの記事
- [R]ウェブサイトから読み取ったHTMLファイルをファイルに出力する(2026.03.14)
- [R]ウェブサイトの応答ヘッダーの取得に失敗する(2026.02.18)
- [R]エラーメッセージ「open.connection(x, "rb") でエラー: コネクションを開くことができません」(2026.02.17)
- [R]Webサイトのページを読み取る(2026.02.03)
- [R]ウェブサイトのページの表の中身を読み取る(2025.10.17)
« [R]tibbleを指定した列だけのtibbleに変換する | トップページ | [R]tibbleから指定した一列を取り出してベクトルにする »

コメント