[R]MeCabで文章の形態素解析を簡単に行う
RMeCabパッケージのRMeCabText関数を使う。引数には形態素解析を行う文章が含まれるテキストファイルを指定する必要がある。戻り値はリストであるので注意。以下では以下2行からなる文章が含まれるテキストファイルsample.txtをカレントディレクトリに置いて行っている。
sample.txt
イレイナ役の本渡楓さんもかわいい。
セナディア役の鈴木みのりさんかわいい。
実行結果
> library(RMeCab)
> lis <- RMeCabText("sample.txt")
file = sample.txt
> dtf <- lis |> data.frame() |> t()
> rolnames(dtf) <- NULL
rolnames(dtf) <- NULL でエラー:
関数 "rolnames<-" を見つけることができませんでした
> rownames(dtf) <- NULL
> dim(dtf)
[1] 17 10
> dtf[, 1:5]
[,1] [,2] [,3] [,4] [,5]
[1,] "イレイナ" "名詞" "一般" "*" "*"
[2,] "役" "名詞" "接尾" "一般" "*"
[3,] "の" "助詞" "連体化" "*" "*"
[4,] "本渡" "名詞" "固有名詞" "人名" "姓"
[5,] "楓" "名詞" "固有名詞" "人名" "名"
[6,] "さん" "名詞" "接尾" "人名" "*"
[7,] "も" "助詞" "係助詞" "*" "*"
[8,] "かわいい" "形容詞" "自立" "*" "*"
[9,] "。" "記号" "句点" "*" "*"
[10,] "セナディア" "名詞" "一般" "*" "*"
[11,] "役" "名詞" "接尾" "一般" "*"
[12,] "の" "助詞" "連体化" "*" "*"
[13,] "鈴木" "名詞" "固有名詞" "人名" "姓"
[14,] "みのり" "名詞" "固有名詞" "人名" "名"
[15,] "さん" "名詞" "接尾" "人名" "*"
[16,] "かわいい" "形容詞" "自立" "*" "*"
[17,] "。" "記号" "句点" "*" "*"
> dtf[, 6:10]
[,1] [,2] [,3] [,4] [,5]
[1,] "*" "*" "*" "" ""
[2,] "*" "*" "役" "ヤク" "ヤク"
[3,] "*" "*" "の" "ノ" "ノ"
[4,] "*" "*" "本渡" "ホンド" "ホンド"
[5,] "*" "*" "楓" "カエデ" "カエデ"
[6,] "*" "*" "さん" "サン" "サン"
[7,] "*" "*" "も" "モ" "モ"
[8,] "形容詞・イ段" "基本形" "かわいい" "カワイイ" "カワイイ"
[9,] "*" "*" "。" "。" "。"
[10,] "*" "*" "*" "" ""
[11,] "*" "*" "役" "ヤク" "ヤク"
[12,] "*" "*" "の" "ノ" "ノ"
[13,] "*" "*" "鈴木" "スズキ" "スズキ"
[14,] "*" "*" "みのり" "ミノリ" "ミノリ"
[15,] "*" "*" "さん" "サン" "サン"
[16,] "形容詞・イ段" "基本形" "かわいい" "カワイイ" "カワイイ"
[17,] "*" "*" "。" "。" "。"
RMeCabC関数による文字列の形態素解析の戻り値は簡易な内容であり、RMeCabText関数の戻り値は、解析結果がすべて含まれている。
« [R]MeCabで文章の形態素解析を簡単に行う | トップページ | [R]平均を求める »
「R(テキストマイニング)」カテゴリの記事
- [R]マララ・ユスフザイの国連本部での演説(2013年7月12日)の文章(原文)を得る(2026.04.28)
- [R]マララ・ユスフザイの国連本部での演説(2013年7月12日)の文章(日本語訳)を得る(2026.04.24)
- [R]MeCabで文章の形態素解析を簡単に行う(2026.04.18)
- [R]MeCabで文章の形態素解析を簡単に行う(2026.04.16)
- [R]MeCabに単語を追加する(Windows)(2026.04.07)

コメント