【スクレイピング】mecab-ipadic-NEologdに辞書指定できず ※未解決

スクレイピング
スクレイピング準備記事
関連記事

【やりたいこと】mecabで使用する辞書をmecab-ipadic-NEologdにしたい!

前回、mecab-ipadic-NEologdのインストールを行いました。

次は、mecabで使用する辞書をmecab-ipadic-NEologdに指定します。

しかし、ここで問題が発生してしまいました。

mecab-ipadic-NEologdを辞書に指定することが何度やってもうまくいきません。

よって、本記事では、mecab-ipadic-NEologdを辞書に指定する上で行った試行錯誤の過程を記載します。

no such file or directory

 

1.使用したもの

・仮想環境 Ubuntu 14.04 64bit

・Virtual box

Oracle VM VirtualBox

・Vagrant

Vagrant by HashiCorp
Vagrant enables users to create and configure lightweight, reproducible, and portable development environments.

・Term Term

Tera Term (テラターム) プロジェクト日本語トップページ - OSDN
Tera Term は、オリジナルの Tera Term Pro 2.3 の原作者公認の後継版です。オープンソースで開発されており、UTF-8 表示に対応しています。 また、SSH1 対応モジュール TTSSH を拡張し、SSH2 プロトコルをサポートしています。

・Python3.4

2.手順

※下記の記事の内容を完了しているものとして、進めていきます。

①試行錯誤

辞書の指定を行うために、色々なことを試してみましたが、どれもうまくいきませんでした。ここでは、その過程を書きます。

辞書の指定は、特に難しいことではありません。辞書があるフォルダを指定できればいいだけのことです。

まずは、辞書が含まれるフォルダを確認します。

辞書が含まれるフォルダは、前回ダウンロードしたmecab-ipadic-NEologdフォルダのはずです。

上記の画像によると、共有フォルダ(practice)の中にmecab-ipadic-NEologdフォルダがあることが分かります。

では、共有フォルダに移動して、mecab-ipadic-NEologdフォルダを指定して、mecabを起動させてみましょう。

「ファイルが見当たらない」と表示されてしまいました。

画面右下に「dicrc」というファイル名が表示されています。

次は、「dicrc」が含まれるフォルダを指定して、mecabを実行してみます。

まずは、「dicrc」が含まれるフォルダを探します。

mecab-ipadic-2.7.0-20070801-neologd-20190124フォルダの中に、dicrcが含まれています。

mecab-ipadic-2.7.0-20070801-neologd-20190124フォルダを指定して、mecabを起動させます。

残念ながら、最初と同じ結果になってしまいました。

次は、mecab-ipadic-2.7.0-20070801-neologd-20190124フォルダの1つ上の階層に移動して、mecabを起動させてみました。

またしても、同じ結果になりました。

次は、フォルダ指定の両端にあったスラッシュを記入せずに、mecabを起動させました。

解決にはいたってませんが、前回と違う結果になりました。今まで、dicrcと表示されていたところが、unk.dicと表示されるようになりました。

フォルダを確認すると、unk.defというファイルがありました。ためしに、名前をunk.dicに変更して、実行してみましたが、うまくいきませんでした。

3.まとめ

仮想環境でのフォルダ指定の方法が分かればなんとかなりそう。

mecabで使用する辞書は、mecab-ipadic-NEologd以外もあるので、他で試した方が良さそう。

【最後に】参考図書の紹介

以下の書籍は、私がPythonスクレイピングを勉強するにあたって、使用した書籍です。

「Python逆引き大全」は、秀和システムの技術書読み放題サービス「10×Eng」で読めます。最初の2週間は無料、それ以降は、月額900円で利用できます。

「プログラミング超初心者が初心者になるためのPython入門」はkindle unlimitedで読めます。

 

コメント

タイトルとURLをコピーしました