Python 3 – PandasWebスクレイピング-Pythonチュートリアル

パンダはテーブルをこすりやすくします(<table> タグ)ウェブページ上。 もちろん、DataFrameとして取得した後、さまざまな処理を行って、Excelファイルまたはcsvファイルとして保存することもできます。

この記事では、任意のWebページからテーブルを抽出する方法を学習します。 Webページに複数のテーブルがある場合があるため、必要なテーブルを選択できます。

関連コース: Pythonパンダを使用したデータ分析

パンダのウェブスクレイピング

モジュールをインストールする

モジュールが必要です lxmlhtml5libbeautifulsoup4。 pipでインストールできます。

1
$ pip install lxml html5lib beautifulsoup4

pands.read_html()

あなたは機能を使うことができます read_html(url) Webページのコンテンツを取得します。

取得する表はウィキペディアからのものです。 ウィキペディアのPythonページからバージョン履歴テーブルを取得します。

ウェブページのhtmlテーブル

1
2
3
4
5
6
import pandas as pd

url = 'https://en.wikipedia.org/wiki/History_of_Python'
dfs = pd.read_html(url)

print(len(dfs))

この出力:

ページにテーブルが1つあるからです。 URLを変更すると、出力が異なります。
テーブルを出力するには:

次のような列にアクセスできます。

1
2
print(dfs[0]['Version'])
print(dfs[0]['Release date'])

パンダのウェブスクレイピング

DataFrameで取得すると、後処理が簡単になります。 テーブルに多くの列がある場合は、必要な列を選択できます。 以下のコードを参照してください。

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16


import pandas as pd


url = 'https://en.wikipedia.org/wiki/History_of_Python'


dfs = pd.read_html(url)


df = dfs[0]


df2 = df[['Version','Release date']]
print(df2)

パンダウェブスクレイピング

次に、Excelに書き込むか、他のことを行うことができます。

1
2

df2.to_excel('python.xlsx')

関連コース: Pythonパンダを使用したデータ分析

Hope this helps!

Source link