Руководство по ML.NET — начало работы через 10 минут

Обучите свою модель

Теперь вы обучите свою модель набору данных yelp_labelled.txt.

Model Builder оценивает многие модели с различными алгоритмами и параметрами на основе количества времени обучения, отведенного для построения наиболее эффективной модели.

  1. Измените время обучения, которое представляет собой время, в течение которого построитель моделей должен исследовать различные модели, на 60 секунд (вы можете попробовать увеличить это число, если после обучения модели не будут найдены). Обратите внимание, что для больших наборов данных время обучения будет больше. Построитель моделей автоматически регулирует время обучения в зависимости от размера набора данных.

  2. Вы можете обновить метрику оптимизации и алгоритмы, используемые в дополнительных параметрах обучения, но это не обязательно для этого примера.

  3. Выберите Начать обучение, чтобы запустить процесс обучения. После запуска вы сможете увидеть оставшееся время.

  4. Обучение Model Builder

Результаты обучения

После завершения обучения вы можете просмотреть сводку результатов обучения.

Обучение по Model Builder завершено

  • Наилучшая точность макроса. Это показывает точность лучшей модели, найденной Model Builder. Более высокая точность означает, что модель более правильно предсказала тестовые данные.
  • Лучшая модель. Здесь показано, какой алгоритм продемонстрировал наилучшие результаты во время исследования построителя моделей.
  • Время обучения. Здесь показано общее время, затраченное на обучение/исследование моделей.
  • Изучено моделей (всего). Здесь показано общее количество моделей, исследованных конструктором моделей за указанный период времени.
  • Созданный код программной части. Здесь отображаются имена файлов, созданных для использования модели или обучения новой модели.

При желании вы можете просмотреть дополнительные сведения о сеансе обучения в окне «Вывод машинного обучения».

После завершения обучения модели перейдите к шагу Оценка.

В терминале выполните следующую команду (в папке myMLApp):

Command prompt
mlnet classification --dataset "yelp_labelled.txt" --label-col 1 --has-header false --name SentimentModel  --train-time 60

Что означают эти команды?

Команда mlnet classification запускает ML.NET с AutoML для изучения множества итераций моделей классификации за заданное время обучения с различными комбинациями преобразований данных, алгоритмов и параметров алгоритмов, а затем выбирает наиболее производительную модель.

  • --dataset: Вы выбрали yelp_labelled.txt в качестве набора данных (внутренне интерфейс командной строки разделит один набор данных на наборы данных для обучения и тестирования).
  • --label-col: Вы должны указать целевой столбец, который вы хотите предсказать (или метку). В этом случае вы хотите предсказать тональность во втором столбце (столбцы с нулевым индексом означают, что это столбец "1").
  • --has-header: Используйте этот параметр, чтобы указать, есть ли у набора данных заголовок. В этом случае у набора данных нет заголовка, так что это false.
  • --name: Используйте этот параметр, чтобы указать имя для модели машинного обучения и связанных ресурсов. В этом случае все ресурсы, связанные с этой моделью машинного обучения, будут иметь в названии SentimentModel.
  • --train-time: Вы также должны указать количество времени, в течение которого интерфейс командной строки ML.NET должен исследовать различные модели. В данном случае 60 секунд (можно попробовать увеличить это число, если после обучения не будет найдено ни одной модели). Обратите внимание, что для больших наборов данных вы должны установить более длительное время обучения.

Ход выполнения

Пока интерфейс командной строки ML.NET изучает различные модели, он отображает следующие данные:

  • Начать обучение. В этом разделе показана каждая итерация модели, включая используемый обучающий модуль (алгоритм) и показатели оценки для этой итерации.
  • Осталось времени. Это, а также индикатор выполнения показывают, сколько времени осталось в процессе обучения в секундах.
  • Лучший алгоритм — показывает, какой алгоритм до сих пор давал наилучшие результаты.
  • Лучший результат – показывает эффективность лучшей модели на данный момент. Более высокая точность означает, что модель более правильно предсказала тестовые данные.

При желании вы можете просмотреть дополнительную информацию о сеансе обучения в файле журнала, созданном интерфейсом командной строки.

Продолжить