

【やりたいこと】頻出単語を調べるために、mecabをインストールしたい!
前回、Wikipediaのデータセットから文章を抜き出したファイルを作成しました。
次は、そのファイルの文章から頻出単語を抜き出します。
そのためには、文章を1つ1つの単語に分解する処理を行う必要があります。そのような処理を行う技術として、形態素解析があります。形態素解析は文章を形態素と呼ばれる最小の単位に分解する機能があります。形態素解析は、mecabをインストールすることで使用できるようになります。
よって、本記事では、mecabのインストールについて記載します。
【10分でできる】mecab-python3インストールエラーの原因はswig
※ダウンロード時間は10分の中に含まれていません。
1.使用したもの
・仮想環境 Ubuntu 14.04 64bit
・Virtual box
・Vagrant

・Term Term

・Python3.4
2.手順
※下記の記事の内容を完了しているものとして、進めていきます。



①mecabのインストール
mecabをインストールします。特に難しいところはありません。
sudo apt-get install -y mecab mecab-ipadic-utf8 libmecab-dev
上記を実行し、mecabをインストールしましょう。
mecab -v
上記を実行し、バージョンを確認しましょう。
②mecab-python3のインストール
Python3でmecabを使うために、mecab-python3をインストールします。
しかし、インストールする際にエラーが発生してしまいました。発生したエラーの内容とその解決方法をここに示します。
pip install mecab-python3
まずは、上記を実行し、mecab-python3のインストールを試みてみます。
エラーが発生してしまいました。
エラー内容を見てみると、
「swig」に問題があると、表示されています。
swigをインストールしましょう。
sudo apt-get install swig
上記を実行して、swigをインストールします。
インストール後、改めてmecab-python3をインストールしましょう。
正常にインストールされるかと思います。
※swigに関しては、こちらを参照ください。

3.まとめ
形態素解析を行うためにmecabのインストールを行いました。
python3でmecabを使用するために、mecab-python3のインストールに試みたが、swigがインストールされていないためエラーが発生してしまいました。
swigをインストール後、再び、mecab-python3のインストールを行いました。
これで、Wikipediaのデータセットから、頻出単語を抽出するツールが揃いました。
【最後に】参考図書の紹介
以下の書籍は、私がPythonスクレイピングを勉強するにあたって、使用した書籍です。
「Python逆引き大全」は、秀和システムの技術書読み放題サービス「10×Eng」で読めます。最初の2週間は無料、それ以降は、月額900円で利用できます。
「プログラミング超初心者が初心者になるためのPython入門」はkindle unlimitedで読めます。
コメント