分類は機械学習タスクの1つです。 では、分類とは何ですか?
これは、データを分類するために常に行うことです。
オブジェクトを見ると、マグカップ、タブ、椅子など、どのクラスに属しているかがすぐにわかります。
それが分類のタスクであり、コンピューターはこれを(データに基づいて)行うことができます。
この記事は初心者向けの機械学習です。 最初の機械学習プログラムを作りましょう
関連コース: Python機械学習コース
教師あり機械学習
トレーニングデータ
機械学習モジュールsklearnをインポートします。 (教師あり)機械学習アルゴリズムは、例またはトレーニングデータを使用します。 トレーニングフェーズは、機械学習アルゴリズムの最初のステップです。
サンプルデータを使用しているため、最初にデータを収集します。 リンゴとオレンジの画像のセットのように、機能を書き留めます。
機能を使用して、2つのクラスを区別できます。 特徴は、色、形、重さなどのプロパティです。 数値で表現できます。
重要なタスクの1つは、トレーニングデータから優れた機能を取得することです。 各画像のカテゴリを書き留めます。 カテゴリはクラスです。リンゴの場合はクラス0、オレンジの場合はクラス1を取得できます。
クラスはいくつでも持つことができますが、この例では2つのクラス(リンゴとオレンジ)を使用します。
特徴を水平に書きます。線は最初の画像を表します。
したがって、これは特徴ベクトルと呼ばれます。 この数字のセットは画像を表しています。
分類子
トレーニングフェーズの後、 分類器は予測を行うことができます。
新しい特徴ベクトルが与えられた場合、画像はリンゴですか、それともオレンジですか?
分類アルゴリズムにはさまざまな種類があり、そのうちの1つは デシジョンツリー。
新しいデータがある場合、アルゴリズムは新しいデータが属するクラスを決定できます。
出力は次のようになります [0] リンゴと [1] オレンジ用。
したがって、これは新しいデータであり、アルゴリズムで予測を行うだけです。
1 |
from sklearn import tree |
過剰適合と過適合
一般に、トレーニングデータが多いほど、分類器は優れたものになります。
トレーニングデータがほとんどない場合(アンダーフィッティング)、あなたは良い予測を持っていないでしょう。
したがって、一般的には、データが多いほど正確になります。 しかし、それには限界があります、それは呼ばれています 過剰適合。
機械学習を初めて使用する場合は、 それなら私はこの本を強くお勧めします。
Hope this helps!
Source link