В Медицинско-исследовательском институте им. Хантера (HMRI) построена платформа для медицинских исследований на основе ML.NET, использующая цикл с участием человека
Клиент
HMRI
Продукты и службы
ML.NET
Visual Studio
SQL Server
ASP.NET Core
Office 365
Промышленность
Здравоохранение
Размер организации
Большой (1000+ сотрудников)
Страна/регион
Австралия
Медицинско-исследовательский институт им. Хантера (HMRI) ставит своей целью укрепление здоровья и благополучия членов общества. Для этого институт объединяет ученых, клинических врачей и других медицинских работников, чтобы быстрее создавать новые и улучшенные решения в области здравоохранения.
Недавно сотрудники института предприняли совместный проект с многопрофильной рабочей группой, в которую вошли доктор Нива Балл (Neva Bull) и Нил Спратт (Neil Spratt) из Ньюкаслского университета, доктор Саймон Куилти (Simon Quilty) из Австралийского национального университета и доктор Бриджет Хонан (Bridget Honan) из австралийской организации Northern Territory Health. Они создали инфраструктуру разработки машинного обучения для исследователей из индустрии здравоохранения. Эта структура упрощает использование медицинских данных в целях исследований медиками, у которых практически отсутствует опыт работы в области машинного обучения. Кроме того, в проект встроен цикл обратной связи, использующий навыки и опыт специалистов-медиков в процессе машинного обучения. Первоначальные реализации этой платформы были посвящены исследованию смертей и госпитализаций, вызванных тепловым ударом.
Подробные сведения об исследованиях можно найти в документе "Метод быстрой разработки машинного обучения для интеллектуального анализа данных с участием медика в процессе", Нева Дж. Булл, Бриджет Хонан, Нил Дж. Спратт, Саймон Квилти.
Бизнес-проблема
Медицинские учреждения работают с большими объемами данных. Обычно эти данные имеют вид неструктурированного текста. Даже после оцифровки из них зачастую трудно извлечь значимые аналитические выводы, на основе которых можно действовать. Такие методы, как регулярные выражения, запросы SQL и доступные на рынке готовые программы для обработки естественного языка, применимы лишь ограниченно.
В таких случаях машинное обучение помогает анализировать и извлекать ценные сведения из данных. Средства машинного обучения ранее использовались для классификации клинических заметок по категориям для различных целей диагностики и исследований. Однако для использования этих средств машинного обучения часто требуются навыки разработки программного обеспечения или обработки и аналитики данных. Но эти навыки часто не входят в программу подготовки медиков.
Даже в случае уже обученной модели, если ее оставить работать без наблюдения в реальном мире, она выдает неоптимальные результаты. Поскольку в медицине ставки чрезвычайно высоки, для принятия решений важно, чтобы специалисты-медики могли доверять моделям, а в случае, когда модель ошибается, давать оценку ее работе на основе своего опыта.
Именно поэтому исследователи из HMRI использовали ML.NET при построении платформы разработки машинного обучения с участием человека в цикле обучения (HITL), которая упрощает маркировку данных, обучение моделей и использование этих моделей людьми, не имеющими навыков программирования и опыта работы в машинном обучении. Что еще важнее, исследователи добавили механизм обратной связи, позволяющий специалистам-медикам задействовать свои навыки и опыт в процессе машинного обучения. Такой высокий уровень контроля позволяет получать улучшенные результаты в реальных случаях использования с меньшим числом точек данных.
Почему ML.NET?
Одна из основных причин, по которой специалисты из HMRI выбрали технологию ML.NET - возможность остаться в экосистеме .NET. Использование стека технологий на основе.NET означало, что интеграция с решениями на иных платформах, отличных от .NET, будет создавать технические и ресурсные проблемы. Используя ML.NET, HMRI удалось задействовать существующие навыки и знания для создания решения на основе машинного обучения.
Влияние ML.NET
Чтобы начать работу с ML.NET, сотрудники HMRI использовали Model Builder. Это позволило быстро проверить, можно ли решить задачу с помощью машинного обучения. Установив, что машинное обучение применимо в данном случае, исследователи использовали API автоматического машинного обучения (AutoML) ML.NET. API AutoML ML.NET автоматизирует выбор алгоритма, а также оптимизацию конвейера и гиперпараметров в настраиваемой инфраструктуре разработки машинного обучения, действующей по принципу HITL (с участием человека в цикле обучения).
Благодаря ML.NET Медицинско-исследовательский институт им. Хантера (HMRI) избавился от необходимости отдавать разработку на сторону и обошелся существующими навыками и ресурсами для выполнения всей сборки внутренними силами.
Кроме того, используя ML.NET как часть решения, исследователи смогли предоставить медикам интерфейс для обучения и использования моделей машинного обучения, не требующий ни умения программировать, ни опыта работы в области машинного обучения
Архитектура решения
Интерфейс, с которым взаимодействуют пользователи, — это веб-приложение, которое поддерживает несколько задач на этапе обучения и использования модели.
Данные
На ранних этапах данные, использованные для обучения моделей, были получены из исторических медицинских записей. В том числе использовался накопленный за 40 лет набор данных о смертности, содержащий около 30 000 записей, а также набор данных о доставке больных санитарной авиацией, содержащий около 13 000 записей.
Данные хранятся в базе данных SQL Server. Перед обучением специалисты-медики используют веб-приложение для разметки тестового набора в предопределенные категории для вычисления метрик точности во время цикла обучения. Затем для первого цикла обучения используется небольшой набор случайно выбранных данных.
Рабочий процесс обучения, оценки и потребления
Обучение модели запускается специалистами-медиками из веб-приложения. Серверная часть ML.NET проводит обучение и повторное обучение модели. Затем модель прогнозирует все оставшиеся данные. Прогнозы и оценки достоверности хранятся в базе данных SQL Server. Для вычисления метрик точности на тестовом наборе и сохранения их используются хранимые процедуры SQL Server. Специалисты-медики могут просматривать эти метрики через веб-приложение. Весь процесс занимает считанные секунды.
* Не настоящие данные пациентов
Специалисты-медики обнаружили, что им удалось интуитивно использовать метрики отзыва и специфичности в выборе дополнительных вариантов для маркировки, что привело к максимальному и притом быстрому повышению производительности модели. Дальнейшее повышение производительности было реализовано путем выборочного применения меток на основе сортировки по оценке достоверности. При этом специалисты-медики, вовлеченные в активное обучение, не только подтверждают прогнозы с низкой оценкой, но и исправляют неверные прогнозы с высокой оценкой.
```На нынешнем этапе медики - специалисты по предметной области - могут запустить задание для повторного обучения модели с использованием исправленных меток данных. Этот цикл "метка, обучение,оценка" повторяется, пока модель не достигает производительности, удовлетворяющей медиков. Метки времени события обучения, метрики оценки и другие сведения заносятся в базу SQL Server для последующей проверки и возможности аудита.
После завершения цикла "обучение, оценка, метка" в базе данных SQL Server с помощью генератора случайных чисел SQL Server выбирается набор прогнозных данных для проверки. Эти точки данных были предварительно классифицированы группой специалистов-медиков, не знающих о прогнозах модели.
Полученная в результате модель имела точность приблизительно 85-89 %. Этот результат придал исследователям уверенности и позволил использовать классификации, созданные моделью, в текущих медицинских исследованиях. Скорость работы ML.NET в сочетании с рабочим процессом HITL (процесс с участием человека) означает, что модель можно повторно использовать для различных задач классификации и(или) различных наборов данных высокоэффективным и экономичным способом без ущерба для точности.
Планы на будущее
Рабочий процесс с участием врача, разработанный исследователями HMRI, станет незаменим для будущих исследований, в которых очень важна быстрая и точная классификация неструктурированных текстов медицинской тематики.
Готовы приступить?
Наше пошаговое руководство поможет вам запустить ML.NET на вашем компьютере.