« [R]MeCabで文章の形態素解析を簡単に行う | トップページ | [R]平均を求める »

2026年4月18日 (土)

[R]MeCabで文章の形態素解析を簡単に行う

RMeCabパッケージのRMeCabText関数を使う。引数には形態素解析を行う文章が含まれるテキストファイルを指定する必要がある。戻り値はリストであるので注意。以下では以下2行からなる文章が含まれるテキストファイルsample.txtをカレントディレクトリに置いて行っている。

sample.txt

イレイナ役の本渡楓さんもかわいい。
セナディア役の鈴木みのりさんかわいい。

実行結果

> library(RMeCab)
> lis <- RMeCabText("sample.txt")
file = sample.txt
> dtf <- lis |> data.frame() |> t()
> rolnames(dtf) <- NULL
rolnames(dtf) <- NULL でエラー:
関数 "rolnames<-" を見つけることができませんでした
> rownames(dtf) <- NULL
> dim(dtf)
[1] 17 10
> dtf[, 1:5]
[,1] [,2] [,3] [,4] [,5]
[1,] "イレイナ" "名詞" "一般" "*" "*"
[2,] "役" "名詞" "接尾" "一般" "*"
[3,] "の" "助詞" "連体化" "*" "*"
[4,] "本渡" "名詞" "固有名詞" "人名" "姓"
[5,] "楓" "名詞" "固有名詞" "人名" "名"
[6,] "さん" "名詞" "接尾" "人名" "*"
[7,] "も" "助詞" "係助詞" "*" "*"
[8,] "かわいい" "形容詞" "自立" "*" "*"
[9,] "。" "記号" "句点" "*" "*"
[10,] "セナディア" "名詞" "一般" "*" "*"
[11,] "役" "名詞" "接尾" "一般" "*"
[12,] "の" "助詞" "連体化" "*" "*"
[13,] "鈴木" "名詞" "固有名詞" "人名" "姓"
[14,] "みのり" "名詞" "固有名詞" "人名" "名"
[15,] "さん" "名詞" "接尾" "人名" "*"
[16,] "かわいい" "形容詞" "自立" "*" "*"
[17,] "。" "記号" "句点" "*" "*"
> dtf[, 6:10]
[,1] [,2] [,3] [,4] [,5]
[1,] "*" "*" "*" "" ""
[2,] "*" "*" "役" "ヤク" "ヤク"
[3,] "*" "*" "の" "ノ" "ノ"
[4,] "*" "*" "本渡" "ホンド" "ホンド"
[5,] "*" "*" "楓" "カエデ" "カエデ"
[6,] "*" "*" "さん" "サン" "サン"
[7,] "*" "*" "も" "モ" "モ"
[8,] "形容詞・イ段" "基本形" "かわいい" "カワイイ" "カワイイ"
[9,] "*" "*" "。" "。" "。"
[10,] "*" "*" "*" "" ""
[11,] "*" "*" "役" "ヤク" "ヤク"
[12,] "*" "*" "の" "ノ" "ノ"
[13,] "*" "*" "鈴木" "スズキ" "スズキ"
[14,] "*" "*" "みのり" "ミノリ" "ミノリ"
[15,] "*" "*" "さん" "サン" "サン"
[16,] "形容詞・イ段" "基本形" "かわいい" "カワイイ" "カワイイ"
[17,] "*" "*" "。" "。" "。"

RMeCabC関数による文字列の形態素解析の戻り値は簡易な内容であり、RMeCabText関数の戻り値は、解析結果がすべて含まれている。

« [R]MeCabで文章の形態素解析を簡単に行う | トップページ | [R]平均を求める »

R(テキストマイニング)」カテゴリの記事

コメント

コメントを書く

コメントは記事投稿者が公開するまで表示されません。

(ウェブ上には掲載しません)

« [R]MeCabで文章の形態素解析を簡単に行う | トップページ | [R]平均を求める »

無料ブログはココログ

■■

■■■