ML.NET チュートリアル | 概要を 10 分で

モデルの学習

ここでは、 yelp_labelled.txt データセットを使用してモデルをトレーニングします。

Model Builder は、指定された学習時間に基づいて、アルゴリズムや設定を変えた多くのモデルを評価し、ベスト パフォーマンス モデルを構築します。

  1. トレーニングする時間 (すなわち Model Builder が様々なモデルを検索する時間量) を変更してトレーニングして、60 秒に変更します (トレーニング後にモデルが見つからない場合は、この値を大きくすることができます)。大規模なデータセットの場合、トレーニング時間が長くなることに注意してください。Model Builder は、データセットのサイズに基づいてトレーニング時間を自動的に調整します。

  2. Advanced トレーニング オプションで使用される最適化メトリックとアルゴリズムを更新できますが、この例では必要ありません。

  3. [トレーニングの開始] を選択して、トレーニング プロセスを開始します。 トレーニングが始まると、残り時間を確認できます。

  4. Model Builder のトレーニング

学習結果

学習が終了したら、学習結果の概要を確認できます。

Model Builder トレーニングが完了しました

  • 最高のマクロ精度 - Model Builder が検出した最高のモデルの精度を表示します。精度が高いほど、モデルがテスト データをより正しく予測したことを意味します。
  • 最適なモデル - これは、Model Builder の探索中に最適なアルゴリズムを示します。
  • 学習時間 - これは、モデルの学習または探索に費やされた合計時間を示します。
  • 探索済みモデル (合計) - これには、指定した時間内に Model Builder が探索したモデルの合計数が表示されます。
  • コードビハインドの生成 - モデルの使用や新しいモデルのトレーニングに役立てるために生成されたファイルの名前が表示されます。

必要に応じて、[Machine Learning Output] ウィンドウでトレーニング セッションに関する詳細を確認することができます。

モデルのトレーニングが終了したら、評価の手順に進みます。

ターミナルで、次のコマンドを実行します (myMLApp フォルダー内):

Command prompt
mlnet classification --dataset "yelp_labelled.txt" --label-col 1 --has-header false --name SentimentModel  --train-time 60

これらのコマンドにはどのような意味がありますか?

mlnet classification コマンドは、AutoML を使用して ML.NET を実行し、データ変換、アルゴリズム、アルゴリズムオプションのさまざまな組み合わせを使用して、指定された量のトレーニング時間内に分類モデル探索を何度も繰り返してから、最も高いパフォーマンスのモデルを選択します。

  • --dataset: データセットとして yelp_labelled.txt を選択しました (内部では、CLI が 1 つのデータセットをトレーニングとテストのデータセットに分割します)。
  • --label-col: 予測するターゲット列 (またはラベル) を指定する必要があります。この場合は、2 番目の列のセンチメントを予測することにします (インデックスのない列は、これが列 "1" です)。
  • --has-header: データセットにヘッダーがあるかどうかを指定するには、このオプションを使用します。この場合、データセットにはヘッダーがないため、false です。
  • --name: 機械学習モデルと関連する資産の名前を指定するには、このオプションを使用します。この場合、この機械学習モデルに関連付けられているすべての資産の名前に SentimentModel が含まれます。
  • --train-time: ML.NET CLI で異なるモデルを探索する時間も指定する必要があります。この例では、60秒です (トレーニング後にモデルが見つからない場合には、この数を増やすことができます)。大規模なデータセットの場合は、トレーニング時間を長く設定する必要があります。

進行状況

ML.NET CLI はさまざまなモデルを探索していますが、次のデータが表示されます。

  • 学習の開始 - このセクションでは、使用されたトレーナー (アルゴリズム) やその繰り返しの評価指標など、各モデルの繰り返しが表示されます。
  • 残り時間 - これと進行状況バーには、学習プロセスの残り時間が秒単位で表示されます。
  • 最高のアルゴリズム - これは、これまでにどのアルゴリズムが最高のパフォーマンスを発揮したかを示します。
  • ベスト スコア - これは、過去最高モデルのパフォーマンスを表示します。精度が高いほど、そのモデルがテスト データをより正しく予測したことを意味します。

必要に応じて、CLI で生成されたログ ファイルでトレーニング セッションに関する詳細を確認することができます。

続行