Python 3 – パンダでCSVを読む-Pythonチュートリアル

csvファイルをpandas.DataFrameとして読み取るには、pandas関数を使用します read_csv() または read_table()

read_csv()とread_table()の違いはほとんどありません。 実際、同じ関数がソースによって呼び出されます。

  • read_csv()区切り文字はコンマ文字です
  • read_table()はタブの区切り文字です t

関連コース: Pythonパンダを使用したデータ分析

CSVを読む

Pythonでcsvを読む

パンダ機能 read_csv() 値を読み込みます。区切り文字はコンマ文字です。
Googleスプレッドシートを含む最新のオフィススイートでは、ファイルをcsvファイルにエクスポートできます。

以下を使用してください csvデータ 例として。

名前、年齢、州、ポイント
アリス、24、NY、64
ボブ、42、CA、92
チャーリー、18、CA、70
デイブ、68、TX、70
エレン、24、CA、88
フランク、30、NY、57
アリス、24、NY、64
ボブ、42、CA、92
チャーリー、18、CA、70
デイブ、68、TX、70
エレン、24、CA、88
フランク、30、NY、57

次のようにcsvを読み込むことができます。

1
2
3
4
5
6
7
8

import pandas as pd


df = pd.read_csv('sample.csv', index_col=0)


print(df)

次に、データフレームを出力します。

DataFrameまたはpandas.Seriesからデータをcsvファイルとしてエクスポートするか、既存のcsvファイルに追加する場合は、to_csv()メソッドを使用します。

ヘッダー(ヘッダー行)のないcsvファイルを読み取ります。

11,12,13,14
21,22,23,24
31,32,33,34

絶対パスへのパス相対パスまたは現在のディレクトリ(作業ディレクトリ)からの相対パスを指定します。現在のディレクトリの確認または変更については、次の記事を参照してください。

引数が設定されていない場合、最初の行はヘッダーとして認識され、列名の列に割り当てられます。

1
2
3
4
5
6
7
8
9
10
import pandas as pd

df = pd.read_csv('data/src/sample.csv')
print(df)




print(df.columns)

header = Noneの場合、連番が列名列に割り当てられます。

1
2
3
4
5
6
df_none = pd.read_csv('data/src/sample.csv', header=None)
print(df_none)




names=('A', 'B', 'C', 'D') その結果、列名として任意の値を設定できます。リストとタプルで指定してください。

1
2
3
4
5
6
df_names = pd.read_csv('data/src/sample.csv', names=('A', 'B', 'C', 'D'))
print(df_names)




関連コース: Pythonパンダを使用したデータ分析

ヘッダー付きの次のcsvファイルを読み取ります。

あいうえお
11,12,13,14
21,22,23,24
31,32,33,34

ヘッダーの行番号を0(header = 0など)として指定します。デフォルトはheader = 0で、最初の行がheaderの場合、結果は同じ結果になります。

1
2
3
4
5
6
7
8
9
10
11
12
13
df_header = pd.read_csv('data/src/sample_header.csv')
print(df_header)





df_header_0 = pd.read_csv('data/src/sample_header.csv', header=0)
print(df_header_0)




ヘッダーで指定された行からデータが読み取られ、上記の行は無視されます。

1
2
3
4
df_header_2 = pd.read_csv('data/src/sample_header.csv', header=2)
print(df_header_2)


インデックス付きのcsvを読む

次のようなヘッダーとインデックス(ヘッダー列)を含むcsvファイルを読み取ります。

、あいうえお
ONE、11、12、13、14
TWO、21、22、23、24
3、31、32、33、34

特に何も指定されていない場合、インデックス列は認識されません。
だから追加 index_col=0

インデックスとして使用する列の列番号を0から始まるインデックスとして指定します。

1
2
3
4
5
6
7
8
9
df_header_index_col = pd.read_csv('data/src/sample_header_index.csv', index_col=0)
print(df_header_index_col)





print(df_header_index_col.index)

関連コース: Pythonパンダを使用したデータ分析

Hope this helps!

Source link