« [R]文字の文字コードを調べる | トップページ | [Python]文字列の指定した一部を取り出す »

2022年10月26日 (水)

[R]文字の任意の文字コードを簡単に調べる

charToRaw関数は引数に与えた文字列をロウ型で返すため、これを利用すると、そのRを実行している環境での文字コードを簡単に調べることができる。以下は、文字列「あい亜井」のそれぞれの文字の文字コードを調べた例。なお、これら文字の文字コード(左から、文字、その文字のシフトJISコード、その文字のutf-8コード)は以下のとおり(0xは16進数であることを示す接頭語)。

あ 0x82A0 0xE38182
い 0x82A2 0xE38184
亜 0x889F 0xE4BA9C
井 0x88E4 0xE4BA95

WindowsのR(文字コードはシフトJIS)で実行すると、以下のようにシフトJISコードがバイト列で返される。

> charToRaw("あい亜井")
[1] 82 a0 82 a2 88 9f 88 e4

任意の文字の任意の文字コードを調べるには、iconv関数を使う。戻り値はデフォルトでは文字列のため、文字コードの値を知りたいのであれば、toRawオプションをTRUEにすることでロウ型で返すため、これをTRUEにする。WindowsのR(文字コードはシフトJIS)で実行すると、以下のようになる。

> iconv("あい亜井", to = "sjis", toRaw = TRUE)
[[1]]
[1] 82 a0 82 a2 88 9f 88 e4
> iconv("あい亜井", to = "utf-8", toRaw = TRUE)
[[1]]
[1] e3 81 82 e3 81 84 e4 ba 9c e4 ba 95

« [R]文字の文字コードを調べる | トップページ | [Python]文字列の指定した一部を取り出す »

R(文字と文字列)」カテゴリの記事

コメント

コメントを書く

コメントは記事投稿者が公開するまで表示されません。

(ウェブ上には掲載しません)

« [R]文字の文字コードを調べる | トップページ | [Python]文字列の指定した一部を取り出す »

無料ブログはココログ

■■

■■■