Python 3 – 機械学習Classifer-Pythonチュートリアル

分類は機械学習タスクの1つです。 では、分類とは何ですか?
これは、データを分類するために常に行うことです。

オブジェクトを見ると、マグカップ、タブ、椅子など、どのクラスに属しているかがすぐにわかります。
それが分類のタスクであり、コンピューターはこれを(データに基づいて)行うことができます。

この記事は初心者向けの機械学習です。 最初の機械学習プログラムを作りましょう

関連コース: Python機械学習コース

教師あり機械学習

トレーニングデータ

機械学習モジュールsklearnをインポートします。 (教師あり)機械学習アルゴリズムは、例またはトレーニングデータを使用します。 トレーニングフェーズは、機械学習アルゴリズムの最初のステップです。

サンプルデータを使用しているため、最初にデータを収集します。 リンゴとオレンジの画像のセットのように、機能を書き留めます。

機能を使用して、2つのクラスを区別できます。 特徴は、色、形、重さなどのプロパティです。 数値で表現できます。

重要なタスクの1つは、トレーニングデータから優れた機能を取得することです。 各画像のカテゴリを書き留めます。 カテゴリはクラスです。リンゴの場合はクラス0、オレンジの場合はクラス1を取得できます。

クラスはいくつでも持つことができますが、この例では2つのクラス(リンゴとオレンジ)を使用します。

分類器の機械学習トレーニングデータ

特徴を水平に書きます。線は最初の画像を表します。

したがって、これは特徴ベクトルと呼ばれます。 この数字のセットは画像を表しています。

分類子

トレーニングフェーズの後、 分類器は予測を行うことができます
新しい特徴ベクトルが与えられた場合、画像はリンゴですか、それともオレンジですか?

分類アルゴリズムにはさまざまな種類があり、そのうちの1つは デシジョンツリー

新しいデータがある場合、アルゴリズムは新しいデータが属するクラスを決定できます。
出力は次のようになります [0] リンゴと [1] オレンジ用。

したがって、これは新しいデータであり、アルゴリズムで予測を行うだけです。

1
2
3
4
5
6
7
8
9
10
from sklearn import tree

features = [[0,50],[0,60],[1,35],[1,36],[1,40]]
labels = [0,0,1,1,1]

algorithm = tree.DecisionTreeClassifier()
algorithm = algorithm.fit(features, labels)

newData = [[0,51]]
print(algorithm.predict(newData))

過剰適合と過適合

一般に、トレーニングデータが多いほど、分類器は優れたものになります。
トレーニングデータがほとんどない場合(アンダーフィッティング)、あなたは良い予測を持っていないでしょう。

したがって、一般的には、データが多いほど正確になります。 しかし、それには限界があります、それは呼ばれています 過剰適合

機械学習を初めて使用する場合は、 それなら私はこの本を強くお勧めします。

例と演習をダウンロードする

Hope this helps!

Source link