MecabをインストールしてもEUC,EUCと言われたのでUTF-8に直すと文字化けが治りました。
自分の知識が全くなく(Windowsでしか環境構築した事なかった)、構築に時間がかかってしまったのでメモとして残しておきます。
参考にさせて頂いたサイトは、以下の通りです。
①
-やろうとしている事
Linux環境にMecabをインストールができ、文字化けすることなく利用出来る事
-やった事
①Mecabをダウンロード、インストール
② 辞書のダウンロード、インストール →参考にさせて頂いたサイトの通りに実施
が、自分の環境だけなのかmecabを実行しても文字化けしてしまって解析結果がうまく取れない。(mecabコマンドの後に日本語を入力しても解析結果が★★みたいに表示されてしまう。)調べてみるとmecabの辞書がEUC-JPになっており、文字化けしてそうだった。実際に、catコマンドで.def,.csvの中身を見てみると文字化けしているし、.defと.csvのファイルをUTF-8にするとうまく動きそうだったのでトライした。nkfコマンドで各ファイルをUTF-8に変換しようとしたけど、自分のLinux環境にはnkfコマンドが入っていなかった。
以下のサイトからnkfのパッケージをダウンロード
Download File List - nkf Network Kanji Filter - OSDN
ダウンロードしたら
make
make installでインストール
③本作業に戻って、
-/usr/local/lib/mecab/dic/ipadic
-/usr/local/lib/mecab/dic/naist-jdic
のディレクトリの.def,.csvファイルの以下の感じで文字コードをUTF-8に変更。
cd /usr/local/lib/mecab/dic/ipadic
nkf -e --overwrite ./*.def
cd /usr/local/lib/mecab/dic/naist-jdic
nkf -e --overwrite ./*.def
以上で、文字化けが治りmecabも使用する事が出来るようになりました。