スクレイピング準備記事

【スクレイピング】仮想マシンの起動
【やりたいこと】仮想マシンを起動させたい! 今回は、初めてのスクレイピング記事になります。 スクレイピング記事の大まかな流れとしては、 仮想マシンを構築→スクレイピング 以上の流れで進めていきます。 今回は、1記事...

【スクレイピング】仮想マシンでPythonスクリプトファイルの実行
【やりたいこと】Pythonスクリプトファイルを仮想マシンで実行させたい! 前回の記事「【スクレイピング】仮想マシンの起動」の続きです。 ホストOSでPythonスクリプトファイルを実行するには、そのファイルがあるフォルダに...
関連記事
【やりたいこと】mecabの辞書をインストールしたい!
前回、頻出単語の抽出を試みたが、思ったようにいきませんでした。
原因として、「mecabの辞書が古い可能性がある」と結論づけて終えました。
今回は、mecab-ipadic-NEologdというWeb上の多様なデータを含む辞書をインストールします。
【10分でできる】githubからインストール
※ダウンロード時間は10分の中に含まれていません。
1.使用したもの
・仮想環境 Ubuntu 14.04 64bit
・Virtual box
Oracle VM VirtualBox
・Vagrant

Vagrant by HashiCorp
Vagrant enables users to create and configure lightweight, reproducible, and portable development environments.
・Term Term
https://ja.osdn.net/projects/ttssh2/
・Python3.4
2.手順
※下記の記事の内容を完了しているものとして、進めていきます。

【スクレイピング】仮想マシンの起動
【やりたいこと】仮想マシンを起動させたい! 今回は、初めてのスクレイピング記事になります。 スクレイピング記事の大まかな流れとしては、 仮想マシンを構築→スクレイピング 以上の流れで進めていきます。 今回は、1記事...

【スクレイピング】仮想マシンでPythonスクリプトファイルの実行
【やりたいこと】Pythonスクリプトファイルを仮想マシンで実行させたい! 前回の記事「【スクレイピング】仮想マシンの起動」の続きです。 ホストOSでPythonスクリプトファイルを実行するには、そのファイルがあるフォルダに...
①mecab-ipadic-NEologdのインストール
githubからmecab-ipadic-NEologdをインストールしましょう。
git clone --depth 1 https://github.com/neologd/mecab-ipadic-neologd.git
上記を実行し、mecab-ipadic-NEologdをインストールします。
今回は、全部入りの辞書をインストールします。
cd mecab-ipadic-neologd
上記を実行して、mecab-ipadic-NEologdフォルダに移動します。
./bin/install-mecab-ipadic-neologd -n -a
上記を実行し、全部入りの辞書をインストールします。
3.まとめ
mecab-ipadic-NEologdのインストールに成功しました。次は、mecabで使用する辞書をmecab-ipadic-NEologdにして、頻出単語の抽出を行います。
【最後に】参考図書の紹介
以下の書籍は、私がPythonスクレイピングを勉強するにあたって、使用した書籍です。
「Python逆引き大全」は、秀和システムの技術書読み放題サービス「10×Eng」で読めます。最初の2週間は無料、それ以降は、月額900円で利用できます。
「プログラミング超初心者が初心者になるためのPython入門」はkindle unlimitedで読めます。
コメント