Python 3 – SeleniumはPythonでHTMLソースを取得します

あなたは取得したいですか HTML Pythonセレンを使用したWebページのソースコード? この記事では、その方法を学びます。
Seleniumは、ブラウザー自動化用のPythonモジュールです。 これを使用して、HTMLコード、Webページの構成要素を取得できます:ハイパーテキストマークアップ言語(HTML)。

HTMLソースとは何ですか? これは、Webページを構築するために使用されるコードです。 マークアップ言語です。

それを取得するには、最初にセレンとWebドライバーをインストールする必要があります。 PythonにWebブラウザーを起動させ、WebページのURLを開いて、HTMLソースを取得することができます。

関連コース:

Seleniumをインストールします

開始するには、Python用のSeleniumモジュールをインストールします。

Windowsユーザーの場合は、代わりに次のようにします。

1
pip.exe install selenium

virtualenvを使用して仮想環境でこれを行うことをお勧めします。
PyCharm IDEを使用している場合は、IDE内からモジュールをインストールできます。

Webドライバがインストールされていることを確認してください。インストールされていないと、機能しません。

SeleniumはHTMLを取得します

以下に示すコードを使用して、URLのHTMLソースを取得できます。
最初にWebブラウザ(Firefox)を起動し、ページをロードしてからHTMLコードを出力します。

以下のコードは、Firefox Web rbowserを起動し、get()メソッドを使用してWebページを開き、最後にbrowser.page_sourceを使用してWebページのhtmlを格納します。

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17


from selenium import webdriver
import time


browser=webdriver.Firefox()


browser.get("https://en.wikipedia.org")
html = browser.page_source
time.sleep(2)
print(html)


browser.close()

セレンはhtmlを取得します

これは、最初にセレンとタイムモジュールをインポートするいくつかのステップで行われます。

1
2
from selenium import webdriver
import time

1行のコードでWebブラウザを起動します。 この例ではFirefoxを使用していますが、サポートされているブラウザのいずれかです。 (Chrome、Edge、PhantomJS)を実行します。

1
2

browser=webdriver.Firefox()

取得したいURLが開かれます。これはブラウザでリンクを開くだけです。

1
2

browser.get("https://en.wikipedia.org")

次に、属性を使用できます .page_source HTMLコードを取得します。

1
2
3
html = browser.page_source
time.sleep(2)
print(html)

次に、オプションでHTMLソースを出力できます(またはそれを使用して他のことを行うことができます)。

1
2
time.sleep(2)
print(html)

Webブラウザを閉じることを忘れないでください。

セレンを初めて使用する場合は、 それなら私はこの本を強くお勧めします。

例をダウンロード

Hope this helps!

Source link