Didacticiel ML.NET - Démarrage en 10 minutes

Entraîner votre modèle

Vous allez maintenant entraîner votre modèle avec l'ensemble de données yelp_labelled.txt.

Model Builder évalue de nombreux modèles avec différents algorithmes et paramètres en fonction de la durée d’apprentissage donnée pour générer le modèle le plus performant.

  1. Modifiez le Temps d'entraînement, qui correspond au temps pendant lequel vous souhaitez que Model Builder explore divers modèles, à 60 secondes (vous pouvez essayer d'augmenter ce nombre si aucun modèle se trouvent après la formation) . Notez que pour les ensembles de données plus volumineux, le temps de formation sera plus long. Model Builder ajuste automatiquement le temps de formation en fonction de la taille de l'ensemble de données.

  2. Vous pouvez mettre à jour l’indicateur de performance d’optimisation et les algorithmes utilisés dans les Options de formation avancées, mais cela n’est pas nécessaire pour cet exemple.

  3. Sélectionnez Démarrer la formation pour démarrer le processus de formation. Une fois la formation démarrée, vous pouvez voir le temps restant.

  4. Formation ML.NET Model Builder

Résultats d'entraînement

Une fois l’apprentissage terminé, vous pouvez afficher un résumé des résultats de la formation.

Formation ML.NET Model Builder terminée

  • Meilleure précision macro : ceci vous montre la précision du meilleur modèle trouvé par Model Builder. Une précision plus élevée signifie que le modèle prédit plus correctement sur les données de test.
  • Meilleur modèle – Cela vous montre quel algorithme a le mieux fonctionné lors de l'exploration de Model Builder.
  • Temps d’entraînement : indique la durée totale consacrée à l’apprentissage/à l’exploration des modèles.
  • Modèles explorés (total) : affiche le nombre total de modèles explorés par Model Builder dans le temps donné.
  • Code-behind généré : ceci vous montre les noms des fichiers générés pour vous aider à utiliser le modèle ou à entraîner un nouveau modèle.

Si vous le souhaitez, vous pouvez afficher plus d’informations sur la session d’apprentissage dans la fenêtre sortie de Machine Learning.

Une fois l’entraînement du modèle terminé, accédez à l’étape Évaluation.

Dans votre terminal, exécutez la commande suivante (dans votre dossier myMLApp) :

Command prompt
mlnet classification --dataset "yelp_labelled.txt" --label-col 1 --has-header false --name SentimentModel  --train-time 60

Que signifient ces commandes ?

La commande mlnet classification s’exécute ML.NET avec AutoML pour explorer de nombreuses itérations de modèles de classification dans la durée d’apprentissage donnée avec différentes combinaisons de transformations de données, d’algorithmes et d’options d’algorithme, puis choisit le modèle le plus performant.

  • --dataset: Vous avez choisi yelp_labelled.txt comme jeu de données (en interne, l’interface CLI fractionnera le jeu de données en jeux de données d’entraînement et de test).
  • --label-col: Vous devez spécifier la colonne cible que vous souhaitez prédire (ou l’étiquette). Dans ce cas, vous souhaitez prédire le sentiment dans la deuxième colonne (colonnes indexées zéro signifie qu’il s’agit de la colonne "1").
  • --has-header: Utilisez cette option pour spécifier si le jeu de données a un en-tête. Dans ce cas, le jeu de données n’a pas d’en-tête, il est donc faux.
  • --name: Utilisez cette option pour fournir un nom pour votre modèle Machine Learning et les ressources associées. Dans ce cas, toutes les ressources associées à ce modèle Machine Learning auront SentimentModel dans le nom.
  • --train-time: Vous devez également spécifier la durée pendant laquelle vous souhaitez que l’interface CLI ML.NET explore différents modèles. Dans ce cas, 60 secondes (vous pouvez essayer d’augmenter ce nombre si aucun modèle n’est trouvé après l’entraînement). Notez que pour les jeux de données plus volumineux, vous devez définir une durée d’entraînement plus longue.

Progression

Pendant que la CLI ML.NET explore différents modèles, elle affiche les données suivantes :

  • Commencez la formation : cette section présente chaque itération de modèle, y compris le formateur (algorithme) utilisé et les métriques d’évaluation pour cette itération.
  • Temps restant – Ceci et la barre de progression indiqueront combien de temps il reste dans le processus de formation en secondes.
  • Meilleur algorithme - indique l’algorithme qui a effectué les meilleures performances.
  • Meilleur score : cela vous montre les performances du meilleur modèle jusqu’à présent. Une plus grande précision signifie que le modèle a prédit plus correctement sur les données de test.

Si vous le souhaitez, vous pouvez afficher plus d'informations sur la session de formation dans le fichier journal généré par la CLI.

Continuer