あなたは取得したいですか HTML Pythonセレンを使用したWebページのソースコード? この記事では、その方法を学びます。
Seleniumは、ブラウザー自動化用のPythonモジュールです。 これを使用して、HTMLコード、Webページの構成要素を取得できます:ハイパーテキストマークアップ言語(HTML)。
HTMLソースとは何ですか? これは、Webページを構築するために使用されるコードです。 マークアップ言語です。
それを取得するには、最初にセレンとWebドライバーをインストールする必要があります。 PythonにWebブラウザーを起動させ、WebページのURLを開いて、HTMLソースを取得することができます。
関連コース:
Seleniumをインストールします
開始するには、Python用のSeleniumモジュールをインストールします。
Windowsユーザーの場合は、代わりに次のようにします。
1 |
pip.exe install selenium |
virtualenvを使用して仮想環境でこれを行うことをお勧めします。
PyCharm IDEを使用している場合は、IDE内からモジュールをインストールできます。
Webドライバがインストールされていることを確認してください。インストールされていないと、機能しません。
SeleniumはHTMLを取得します
以下に示すコードを使用して、URLのHTMLソースを取得できます。
最初にWebブラウザ(Firefox)を起動し、ページをロードしてからHTMLコードを出力します。
以下のコードは、Firefox Web rbowserを起動し、get()メソッドを使用してWebページを開き、最後にbrowser.page_sourceを使用してWebページのhtmlを格納します。
1 |
|
これは、最初にセレンとタイムモジュールをインポートするいくつかのステップで行われます。
1 |
from selenium import webdriver |
1行のコードでWebブラウザを起動します。 この例ではFirefoxを使用していますが、サポートされているブラウザのいずれかです。 (Chrome、Edge、PhantomJS)を実行します。
1 |
|
取得したいURLが開かれます。これはブラウザでリンクを開くだけです。
1 |
|
次に、属性を使用できます .page_source HTMLコードを取得します。
1 |
html = browser.page_source |
次に、オプションでHTMLソースを出力できます(またはそれを使用して他のことを行うことができます)。
1 |
time.sleep(2) |
Webブラウザを閉じることを忘れないでください。
セレンを初めて使用する場合は、 それなら私はこの本を強くお勧めします。
Hope this helps!
Source link