Microsoft Defender usa ML.NET para detener malware

Cliente
Microsoft Defender ATP

Productos y servicios
ML.NET

Sector
Tecnología

Tamaño de la organización
Grande (más de 1000 empleados)

País o región
Estados Unidos

Microsoft Defender Advanced Threat Protection (ATP) es la plataforma de seguridad unificada de Microsoft para la protección preventiva inteligente, la detección posterior a la infracción, la investigación automatizada y la respuesta; protege los puntos de conexión de las ciberamenazas, detecta los ataques avanzados y las infracciones de datos, automatiza los incidentes de seguridad y mejora la postura de seguridad utilizando una combinación de la eficacia de la nube, los análisis de comportamiento y machine learning.

Problema empresarial

La Protección contra amenazas avanzada de Microsoft Defender procesa billones de señales todos los días y encuentra alrededor de 5 mil millones de nuevas amenazas cada mes. Estas amenazas van desde archivos PDF que intentan suplantar las credenciales de los usuarios y archivos de documentos que contienen macros armadas hasta archivos zip protegidos con contraseña que contienen ejecutables de malware polimórfico.

Ser capaz de predecir y detener estas amenazas a primera vista es fundamental para la seguridad de los clientes. Sin embargo, el ser humano sólo puede ver y retener en su mente una cantidad limitada de información a la vez. Revisar manualmente cada uno de estos atributos es una tarea que lleva mucho tiempo y no es lo suficientemente rápida para defenderse de las amenazas entrantes. Con la magnitud de las nuevas amenazas que se observan cada mes, un proceso manual realizado por un humano nunca sería escalable, lo que hace que el aprendizaje automático no solo sea agradable de tener, sino necesario para proteger a los usuarios. Además, alguien puede examinar un programa malicioso y encontrar unos pocos atributos que lo hacen malicioso, pero en realidad, el programa malicioso puede tener cientos de miles de otros atributos que indican una amenaza que un humano no podría tomarse el tiempo de averiguar.

Las máquinas, en cambio, tienen una capacidad mucho mayor y un tiempo de respuesta mucho más rápido; pueden examinar instantáneamente todos (posiblemente cientos de miles) de los atributos de una amenaza potencial y seleccionar todos los atributos que la etiquetan como malware. Luego, las máquinas pueden utilizar los atributos encontrados para descubrir nuevos programas maliciosos que un ser humano no habría podido predecir utilizando sólo un pequeño número de atributos.

Así, Microsoft Defender ATP decidió utilizar el aprendizaje automático y ML.NET (técnicamente utiliza un derivado de ML.NET llamado TLC, que ha sido el marco de aprendizaje automático interno utilizado en Microsoft durante más de 10 años), para mejorar la protección en tiempo real contra el malware, de modo que pudieran predecir con mayor facilidad y precisión si las señales son maliciosas y bloquear las amenazas entrantes para mantener a salvo los equipos de sus usuarios.

Impacto de ML.NET

ATP de Microsoft Defender usa algoritmos de clasificación para marcar y exponer amenazas, incluidas las amenazas no vistas anteriormente, que, de lo contrario, permanecerían desapercibidas entre los miles de millones de eventos normales y la incapacidad de los sensores de primera generación para reaccionar a los estímulos poco conocidos y sutiles. Los modelos de ATP de Microsoft Defender optimizan el uso de la gran cantidad de datos y recursos de cálculo disponibles para ATP de Microsoft Defender. Además, según el análisis de ATP de Microsoft Defender de las alertas reales, las tecnologías de aprendizaje automático que se usan son al menos un 20 % más precisas que la heurística diseñada manualmente. Los algoritmos de aprendizaje automático supervisados de ML.NET detienen el 35 % de las amenazas en el nivel anterior a la vulneración, lo que protege contra el malware frente a direcciones URL malintencionadas, datos adjuntos de correo electrónico y otras amenazas emergentes.

Arquitectura de la solución

Procesamiento de datos y selección de características

Para la Protección contra amenazas avanzada de Microsoft Defender es fundamental tener un gran conjunto de datos de entrenamiento etiquetados que incluyan datos limpios y malware en el conjunto de datos de entrenamiento para que pueda imitar escenarios de la vida real y demostrar lo que un cliente real ve todos los días. En un ciclo de entrenamiento promedio, un modelo en Microsoft Defender ATP puede consumir aproximadamente 100 millones de filas de datos con 190 000 características cada una.

La selección de características es muy importante cuando los modelos de aprendizaje detectan malware. Existen dos tipos de características que los investigadores y las máquinas buscan: propiedades de archivo estáticas y componentes de comportamiento. Las propiedades de archivo estáticas incluyen cosas como si un archivo está firmado o no, quién firmó el archivo y varios algoritmos hash aproximados. Los atributos de comportamiento incluyen elementos como, por ejemplo, si el archivo está relacionado con otro archivo, si el archivo insertado procede de otro archivo, a qué direcciones IP está conectado el archivo y qué cambios ha realizado el archivo en el sistema. Un conjunto de datos de aprendizaje puede incluir de miles a millones de características.

Entrenamiento de modelos

ATP de Microsoft Defender tiene una variedad de modelos para varios propósitos. Por ejemplo, tienen modelos que se centran en las amenazas de PE, las amenazas macro y los ataques basados en scripts vistos por primera vez. También hay modelos que se centran en los datos subyacentes; por ejemplo, algunos modelos se entrenan exclusivamente con hashes aproximados de archivos. Además, tienen otra capa de modelos de conjunto que toman señales de estos clasificadores individuales para comprobar una vez más si la actividad del sistema es malintencionada.

ATP de Microsoft Defender entrena estos modelos diariamente con los datos más recientes. Una vez entrenado el modelo, se guarda y la canalización de ingeniería lo carga en la infraestructura en la nube de Defender donde los clientes lo consultan.

La diversidad [de los modelos] es realmente clave para tener un sistema de aprendizaje automático resistente a alteraciones."

Holly Stewart, directora principal de investigación Microsoft Defender ATP

Con los algoritmos de ML.NET, ATP de Microsoft Defender ha podido producir una gran cantidad de modelos de aprendizaje automático para proteger de forma más eficaz a sus usuarios frente a posibles amenazas, lo que mantiene a medio millar de equipos protegidos frente a malware.

¿Listo para empezar?

Nuestro tutorial paso a paso le ayudará a ejecutar ML.NET en su equipo.

Introducción