【スクレイピング】urllibによるWebページの取得

スクレイピング
スクレイピング準備記事

【やりたいこと】Webページを取得したい!

以上の記事の続きとなります。

Webページの取得は、とても簡単です。さっそくやってみましょう!

【5分でできる】URLを記入するだけ!

※ダウンロード時間は5分の中に含まれていません。

0.概要

取得するWebページのURLを指定してPythonスクリプトファイルを実行する。

1.使用したもの

・Virtual box

Oracle VM VirtualBox

・Vagrant

Vagrant by HashiCorp
Vagrant enables users to create and configure lightweight, reproducible, and portable development environments.

・Term Term

Tera Term (テラターム) プロジェクト日本語トップページ - OSDN
Tera Term は、オリジナルの Tera Term Pro 2.3 の原作者公認の後継版です。オープンソースで開発されており、UTF-8 表示に対応しています。 また、SSH1 対応モジュール TTSSH を拡張し、SSH2 プロトコルをサポートしています。

・Python3.4

2.手順

※下記の記事の内容を完了しているものとして、進めていきます。

①Pythonスクリプトファイルの作成

Pythonクローリング&スクレイピング ※取得URL変更

「Pythonクローリング&スクレイピング」のサンプルコードurlopen_encoding.pyを使用します。

URLを記入するところを、取得したいWebページに変更します。

②Webページの取得

python urlopen_encoding.py

上記のスクリプトを実行することで、Webページを取得できました。

【最後に】参考図書の紹介

以下の書籍は、私がPythonスクレイピングを勉強するにあたって、使用した書籍です。

「Python逆引き大全」は、秀和システムの技術書読み放題サービス「10×Eng」で読めます。最初の2週間は無料、それ以降は、月額900円で利用できます。

「プログラミング超初心者が初心者になるためのPython入門」はkindle unlimitedで読めます。

 

コメント

タイトルとURLをコピーしました