Microsoft Defender использует ML.NET для блокировки вредоносных программ
Клиент
Microsoft Defender ATP
Продукты и службы
ML.NET
Промышленность
Технологии
Размер организации
Большой (1000+ сотрудников)
Страна/регион
США
Advanced Threat Protection в Microsoft Defender — это унифицированная платформа безопасности Майкрософт для интеллектуальной превентивной защиты, обнаружения взлома, автоматического расследования и реагирования. Она защищает конечные точки от киберугроз, обнаруживает сложные атаки и утечки данных, автоматизирует инциденты безопасности и повышает уровень безопасности, используя сочетание мощности облака, аналитики поведения и машинного обучения.
Бизнес-проблема
Microsoft Defender ATP ежедневно обрабатывает триллионы сигналов и ежемесячно обнаруживает около 5 миллиардов новых угроз. Эти угрозы варьируются от PDF-файлов, которые пытаются фишинговать учетные данные пользователя, и файлов документов, содержащих вооруженные макросы, до защищенных паролем zip-файлов, содержащих исполняемые полиморфные вредоносные программы.
Возможность предсказать и остановить эти угрозы с первого взгляда имеет решающее значение для безопасности и защиты клиентов. Однако люди могут одновременно просматривать и удерживать в уме некоторый объем информации. Ручной просмотр каждого из этих атрибутов требует много времени и недостаточно быстр для защиты от входящих угроз. С учетом масштабов новых угроз, наблюдаемых каждый месяц, ручной процесс, выполняемый человеком, никогда не будет масштабируемым, что делает машинное обучение не только приятным, но и необходимым для защиты пользователей. Кроме того, кто-то может посмотреть на часть вредоносного ПО и найти несколько атрибутов, которые делают его вредоносным, но на самом деле вредоносное ПО может иметь сотни тысяч других атрибутов, которые указывают на угрозу, разобраться с которой человеку может просто не хватить времени.
С другой стороны, компьютеры имеют гораздо большую мощность и гораздо более быстрое время отклика. Они могут мгновенно просматривать все (возможно, сотни тысяч) атрибутов потенциальной угрозы и выбирать все атрибуты, которые определяют угрозу как вредоносное ПО. Затем компьютеры могут использовать найденные атрибуты для обнаружения новых вредоносных программ, которые человек, возможно, не предсказал, используя лишь небольшое количество атрибутов.
Таким образом, Microsoft Defender ATP решил использовать машинное обучение и ML.NET (технически он использует производную от ML.NET, называемую TLC, которая была внутренней структурой машинного обучения, используемой в Microsoft более 10 лет), для улучшения защиты в реальном времени против вредоносных программ, чтобы они могли более легко и точно предсказывать, являются ли сигналы вредоносными, и блокировать входящие угрозы, чтобы обеспечить безопасность компьютеров своих пользователей.
Влияние ML.NET
Microsoft Defender ATP использует алгоритмы классификации, чтобы помечать и обнаруживать угрозы, включая ранее невидимые угрозы, которые в противном случае остались бы незамеченными среди миллиардов обычных событий и неспособности датчиков первого поколения реагировать на незнакомые и малозаметные раздражители. Модели Microsoft Defender ATP оптимизируют использование огромных объемов данных и вычислительных ресурсов, доступных Microsoft Defender ATP. Кроме того, на основе анализа реальных предупреждений Microsoft Defender ATP используемые технологии машинного обучения как минимум на 20% более точны, чем созданные вручную эвристики. Алгоритмы контролируемого машинного обучения ML.NET останавливают 35% угроз на уровне, предшествующем взлому, что защищает от вредоносного ПО из вредоносных URL-адресов, вложений электронной почты и других новых угроз.
Архитектура решения
Обработка данных и выбор признаков
Для Microsoft Defender ATP очень важно иметь отличный набор помеченных обучающих данных, который включает в себя чистые данные и вредоносное ПО в наборе обучающих данных, чтобы он мог имитировать реальные сценарии и демонстрировать то, что реальный клиент видит каждый день. В среднем в цикле обучения модель в Microsoft Defender ATP может потреблять около 100 миллионов строк данных со 190 тысячами функций в каждой.
Выбор функций очень важен при обучении моделей, обнаруживающих вредоносное ПО. Исследователи и машины ищут два типа функций: статические свойства файлов и поведенческие компоненты. Статические свойства файла включают в себя такие вещи, как подписан файл или нет, кто подписал файл и различные нечеткие хэши. Поведенческие атрибуты включают в себя такие вещи, как, связан ли файл с другим файлом, был ли этот файл внедрен из другого файла, к каким IP-адресам подключен файл и какие изменения файл внес в систему. Набор обучающих данных может включать от тысяч до миллионов признаков.
Обучение модели
Для ATP в Microsoft Defender предусмотрено множество моделей для различных целей. Например, имеются модели, ориентированные на впервые обнаруженные угрозы PE, макроугрозы и атаки на основе сценариев. Существуют также модели, ориентированные на базовые данные; например, некоторые модели обучаются исключительно на нечетких хэшах файлов. Кроме того, имеется еще один уровень согласованных моделей, которые принимают сигналы от этих отдельных классификаторов, чтобы повторно проверить, является ли активность системы злонамеренной.
ATP в Microsoft Defender ежедневно обучает эти модели на основе последних данных. После обучения модель сохраняется, и конвейер проектирования загружает ее в облачную инфраструктуру Defender, где клиенты запрашивают ее.
Разнообразие [моделей] действительно является ключом к созданию устойчивой к взлому системы машинного обучения".
Используя алгоритмы ML.NET, Microsoft Defender ATP смог создать множество моделей машинного обучения для более эффективной защиты своих пользователей от потенциальных угроз, защищая компьютеры полумиллиарда людей от вредоносного ПО.
Готовы приступить?
Наше пошаговое руководство поможет вам запустить ML.NET на вашем компьютере.