【スクレイピング】mecab-python3のインストールエラー解決

スクレイピング
スクレイピング準備記事
関連記事

【やりたいこと】頻出単語を調べるために、mecabをインストールしたい!

前回、Wikipediaのデータセットから文章を抜き出したファイルを作成しました。

次は、そのファイルの文章から頻出単語を抜き出します。

そのためには、文章を1つ1つの単語に分解する処理を行う必要があります。そのような処理を行う技術として、形態素解析があります。形態素解析は文章を形態素と呼ばれる最小の単位に分解する機能があります。形態素解析は、mecabをインストールすることで使用できるようになります。

よって、本記事では、mecabのインストールについて記載します。

【10分でできる】mecab-python3インストールエラーの原因はswig

※ダウンロード時間は10分の中に含まれていません。

1.使用したもの

・仮想環境 Ubuntu 14.04 64bit

・Virtual box

Oracle VM VirtualBox

・Vagrant

Vagrant by HashiCorp
Vagrant enables users to create and configure lightweight, reproducible, and portable development environments.

・Term Term

Tera Term (テラターム) プロジェクト日本語トップページ - OSDN
Tera Term は、オリジナルの Tera Term Pro 2.3 の原作者公認の後継版です。オープンソースで開発されており、UTF-8 表示に対応しています。 また、SSH1 対応モジュール TTSSH を拡張し、SSH2 プロトコルをサポートしています。

・Python3.4

2.手順

※下記の記事の内容を完了しているものとして、進めていきます。

①mecabのインストール

mecabをインストールします。特に難しいところはありません。

sudo apt-get install -y mecab mecab-ipadic-utf8 libmecab-dev

上記を実行し、mecabをインストールしましょう。

mecab -v

上記を実行し、バージョンを確認しましょう。

②mecab-python3のインストール

Python3でmecabを使うために、mecab-python3をインストールします。

しかし、インストールする際にエラーが発生してしまいました。発生したエラーの内容とその解決方法をここに示します。

pip install mecab-python3

まずは、上記を実行し、mecab-python3のインストールを試みてみます。

エラーが発生してしまいました。

エラー内容を見てみると、

swig」に問題があると、表示されています。

swigをインストールしましょう。

sudo apt-get install swig

上記を実行して、swigをインストールします。

インストール後、改めてmecab-python3をインストールしましょう。

正常にインストールされるかと思います。

※swigに関しては、こちらを参照ください。

SWIGをビルドするときにハマッたこと - Qiita
SWIGとは、 SWIG (Simplified Wrapper and Interface Generator) は、 C/C++ で書かれたプログラムやライブラリを、Tcl/Tk、Perl、Python、Ruby、PHP、Lu...

3.まとめ

形態素解析を行うためにmecabのインストールを行いました。

python3でmecabを使用するために、mecab-python3のインストールに試みたが、swigがインストールされていないためエラーが発生してしまいました。

swigをインストール後、再び、mecab-python3のインストールを行いました。

これで、Wikipediaのデータセットから、頻出単語を抽出するツールが揃いました。

【最後に】参考図書の紹介

以下の書籍は、私がPythonスクレイピングを勉強するにあたって、使用した書籍です。

「Python逆引き大全」は、秀和システムの技術書読み放題サービス「10×Eng」で読めます。最初の2週間は無料、それ以降は、月額900円で利用できます。

「プログラミング超初心者が初心者になるためのPython入門」はkindle unlimitedで読めます。

 

コメント

タイトルとURLをコピーしました