Уильямс Маллен повышает производительность с помощью ML.NET
Клиент
Williams Mullen
Продукты и службы
ML.NET
Azure
Visual Studio
SQL Server
Office 365
Промышленность
Юридические услуги и профессиональные услуги
Размер организации
Средний (100-1000 сотрудников)
Страна/регион
США
Williams Mullen, корпоративная юридическая фирма с полным спектром услуг, специализирующаяся на корпоративном праве, судебных разбирательствах, финансах и недвижимости, поняла, что работа юристов с миллионами документов отнимает время у их клиентов. Это привело компанию к исследованию решения для машинного обучения. Как только они поняли, что многие из их проблем на самом деле были проблемами классификации, они решили продолжить изучение с помощью ML.NET.
Бизнес-проблема
Когда дело доходит до технологий, адвокаты живут в основном в двух приложениях: Word и Outlook. Это приводит к довольно большому количеству неструктурированных данных в виде документов Word, PDF-файлов и электронных писем, которые помещаются в систему управления документами, которая может содержать цифровую информацию на десятилетия. Это становится проблемой, когда адвокаты хотят найти конкретную информацию в этих документах, что они и делают, ища метаданные документов, где информация часто отсутствует, неверна или устарела.
Из-за этого ручного процесса компания William Mullen обнаружила, что миллионы документов имеют проблемы, из-за которых документы не могут быть легко доступны для поиска, что приводит к пустой трате времени адвоката и способствует упущенной выгоде.
Почему ML.NET?
Юридическая индустрия скорее ориентирована на Microsoft, когда дело доходит до выбора технологий. Компания Williams Mullen ничем не отличается; ее разработчики — большие пользователи C#. Они начали искать решения для машинного обучения примерно в то же время, когда было объявлено о ML.NET, поэтому было естественным начать использовать ML.NET для своего сценария классификации.
Влияние ML.NET
В ходе своего исследования компания William Mullen обнаружила, что 20% документов в их системе (например, миллионы документов) имеют проблемы, из-за которых документы не могут быть легко доступны для поиска, что приводит к пустой трате времени адвоката и способствует упущенной выгоде. Если бы не ML.NET, компания либо вообще не взялась бы за проект, либо ей пришлось бы отвлекать людей от фактической работы, чтобы вручную устранять эти проблемы, что могло бы привести к затратам на проект в сотни тысяч долларов.
Благодаря ML.NET мы можем обучить модель, а затем сразу же протестировать ее внутри нашего кода. Это ускоряет внесение новых изменений, поскольку все инструменты собраны в одном месте".
Архитектура решения
Создание приложения с ML.NET
Архитектура состоит всего из двух консольных приложений .NET Core и базы данных. Одно консольное приложение извлекает обучающие данные, подготавливает данные и обучает модель. Другое консольное приложение извлекло данные, которые были необходимы для запуска модели, загрузило модель для классификации данных и отключило ее, прежде чем вернуть данные в базу данных.
Удовольствие от этого проекта заключалось в том, насколько просто было начать работу, поэтому нам не нужно было ничего более сложного. Я имею в виду, что обучающее приложение состояло из 200 строк кода с комментариями, ведением журналов и т. д., а приложение для запуска модели было еще меньше. Самой большой частью всего этого был код преобразования, который состоял из 13 строк кода".
Обработка данных
Данные для обучения, а это около 2 миллионов документов, поступили из системы управления документами юридической фирмы. Сами данные включают содержимое документа, заголовок, автора, получателя (для электронных писем) и другие части метаданных в зависимости от того, какие поля очищаются.
Преобразования данных и алгоритмы машинного обучения
Компания Williams Mullen пробовала несколько различных преобразований данных и алгоритмов обучения в нескольких разных приложениях. К преобразованиям данных относятся NormalizeText, TokenizeWords, RemoveDefaultStopWords, OneHotHashEncoding, FeaturizeText, ExtractWordEmbeddings и ProduceNGrams. Для обучения в основном используют алгоритмы классификации StochasticDualCoordinateAscent и OneVersusAll.
Используя преобразование данных и алгоритмы ML.NET для создания решения для машинного обучения, компания Williams Mullen смогла сделать миллионы документов более доступными для поиска, что, в свою очередь, помогло повысить продуктивность работы их адвокатов.
Готовы приступить?
Наше пошаговое руководство поможет вам запустить ML.NET на вашем компьютере.