MecabをインストールしてもEUC,EUCと言われたのでUTF-8に直すと文字化けが治りました。

自分の知識が全くなく(Windowsでしか環境構築した事なかった)、構築に時間がかかってしまったのでメモとして残しておきます。

参考にさせて頂いたサイトは、以下の通りです。

qiita.com

MeCab using UTF-8

 

 

-やろうとしている事

Linux環境にMecabをインストールができ、文字化けすることなく利用出来る事

 

-やった事

Mecabをダウンロード、インストール

② 辞書のダウンロード、インストール →参考にさせて頂いたサイトの通りに実施

が、自分の環境だけなのかmecabを実行しても文字化けしてしまって解析結果がうまく取れない。(mecabコマンドの後に日本語を入力しても解析結果が★★みたいに表示されてしまう。)調べてみるとmecabの辞書がEUC-JPになっており、文字化けしてそうだった。実際に、catコマンドで.def,.csvの中身を見てみると文字化けしているし、.defと.csvのファイルをUTF-8にするとうまく動きそうだったのでトライした。nkfコマンドで各ファイルをUTF-8に変換しようとしたけど、自分のLinux環境にはnkfコマンドが入っていなかった。

以下のサイトからnkfのパッケージをダウンロード

Download File List - nkf Network Kanji Filter - OSDN

ダウンロードしたら

make

make installでインストール

 

③本作業に戻って、

-/usr/local/lib/mecab/dic/ipadic

-/usr/local/lib/mecab/dic/naist-jdic

ディレクトリの.def,.csvファイルの以下の感じで文字コードUTF-8に変更。

cd /usr/local/lib/mecab/dic/ipadic

nkf -e --overwrite ./*.csv

nkf -e --overwrite ./*.def

cd /usr/local/lib/mecab/dic/naist-jdic

nkf -e --overwrite ./*.csv

nkf -e --overwrite ./*.def

 以上で、文字化けが治りmecabも使用する事が出来るようになりました。