Microsoft Defender usa ML.NET para detener malware
Cliente
Microsoft Defender ATP
Productos y servicios
ML.NET
Sector
Tecnología
Tamaño de la organización
Grande (más de 1000 empleados)
País o región
EE. UU.
Microsoft Defender Advanced Threat Protection (ATP) es la plataforma de seguridad unificada de Microsoft para la protección preventiva inteligente, la detección posterior a la infracción, la investigación automatizada y la respuesta; protege los puntos de conexión de las ciberamenazas, detecta los ataques avanzados y las infracciones de datos, automatiza los incidentes de seguridad y mejora la postura de seguridad utilizando una combinación de la eficacia de la nube, los análisis de comportamiento y machine learning.
Problema empresarial
La Protección contra amenazas avanzada de Microsoft Defender procesa billones de señales todos los días y encuentra alrededor de 5 mil millones de nuevas amenazas cada mes. Estas amenazas van desde archivos PDF que intentan suplantar las credenciales de los usuarios y archivos de documentos que contienen macros armadas hasta archivos zip protegidos con contraseña que contienen ejecutables de malware polimórfico.
La capacidad de predecir y detener estas amenazas a primera vista es fundamental para la certeza y seguridad del cliente. Sin embargo, los seres humanos solo pueden ver y contener tanta información en sus mentes a la vez. Recorrer manualmente cada uno de estos atributos es una tarea que requiere mucho tiempo y no es lo suficientemente rápido como para defenderse de las amenazas entrantes. Con la escala de las nuevas amenazas que se ven cada mes, un proceso manual realizado por una persona nunca sería escalable, lo que haría que el aprendizaje automático no solo fuera bueno, sino necesario para proteger a los usuarios. Además, alguien puede examinar un fragmento de malware y encontrar algunos atributos que lo hacen malintencionado, pero en realidad, el malware puede tener cientos de miles de atributos más que indican una amenaza que un humano no puede dedicar tiempo a averiguar.
Las máquinas, por otro lado, tienen una capacidad mucho mayor y un tiempo de respuesta mucho más rápido; pueden mirar instantáneamente todos (posiblemente cientos de miles) de los atributos de una amenaza potencial y elegir todos los atributos que etiquetan la amenaza como malware. Luego, las máquinas pueden usar los atributos encontrados para descubrir nuevos programas maliciosos que un humano no hubiera podido predecir solo con un pequeño número de atributos.
Por lo tanto, ATP de Microsoft Defender decidió usar el aprendizaje automático y ML.NET (técnicamente usa un derivado de ML.NET denominado TLC, que ha sido el marco de aprendizaje automático interno usado en Microsoft durante más de 10 años), para mejorar la protección en tiempo real contra malware para que puedan predecir con mayor facilidad y precisión si las señales son malintencionadas y bloquear las amenazas entrantes para mantener seguras las máquinas de sus usuarios.
Impacto de ML.NET
ATP de Microsoft Defender usa algoritmos de clasificación para marcar y exponer amenazas, incluidas las amenazas no vistas anteriormente, que, de lo contrario, permanecerían desapercibidas entre los miles de millones de eventos normales y la incapacidad de los sensores de primera generación para reaccionar a los estímulos poco conocidos y sutiles. Los modelos de ATP de Microsoft Defender optimizan el uso de la gran cantidad de datos y recursos de cálculo disponibles para ATP de Microsoft Defender. Además, según el análisis de ATP de Microsoft Defender de las alertas reales, las tecnologías de aprendizaje automático que se usan son al menos un 20 % más precisas que la heurística diseñada manualmente. Los algoritmos de aprendizaje automático supervisados de ML.NET detienen el 35 % de las amenazas en el nivel anterior a la vulneración, lo que protege contra el malware frente a direcciones URL malintencionadas, datos adjuntos de correo electrónico y otras amenazas emergentes.
Arquitectura de la solución
Procesamiento de datos y selección de características
Para la Protección contra amenazas avanzada de Microsoft Defender es fundamental tener un gran conjunto de datos de entrenamiento etiquetados que incluyan datos limpios y malware en el conjunto de datos de entrenamiento para que pueda imitar escenarios de la vida real y demostrar lo que un cliente real ve todos los días. En un ciclo de entrenamiento promedio, un modelo en Microsoft Defender ATP puede consumir aproximadamente 100 millones de filas de datos con 190 000 características cada una.
La selección de características es muy importante cuando los modelos de aprendizaje detectan malware. Existen dos tipos de características que los investigadores y las máquinas buscan: propiedades de archivo estáticas y componentes de comportamiento. Las propiedades de archivo estáticas incluyen cosas como si un archivo está firmado o no, quién firmó el archivo y varios algoritmos hash aproximados. Los atributos de comportamiento incluyen elementos como, por ejemplo, si el archivo está relacionado con otro archivo, si el archivo insertado procede de otro archivo, a qué direcciones IP está conectado el archivo y qué cambios ha realizado el archivo en el sistema. Un conjunto de datos de aprendizaje puede incluir de miles a millones de características.
Entrenamiento de modelos
ATP de Microsoft Defender tiene una variedad de modelos para varios propósitos. Por ejemplo, tienen modelos que se centran en las amenazas de PE, las amenazas macro y los ataques basados en scripts vistos por primera vez. También hay modelos que se centran en los datos subyacentes; por ejemplo, algunos modelos se entrenan exclusivamente con hashes aproximados de archivos. Además, tienen otra capa de modelos de conjunto que toman señales de estos clasificadores individuales para comprobar una vez más si la actividad del sistema es malintencionada.
ATP de Microsoft Defender entrena estos modelos diariamente con los datos más recientes. Una vez entrenado el modelo, se guarda y la canalización de ingeniería lo carga en la infraestructura en la nube de Defender donde los clientes lo consultan.
La diversidad [de los modelos] es realmente clave para tener un sistema de aprendizaje automático resistente a alteraciones."
Con los algoritmos de ML.NET, ATP de Microsoft Defender ha podido producir una gran cantidad de modelos de aprendizaje automático para proteger de forma más eficaz a sus usuarios frente a posibles amenazas, lo que mantiene a medio millar de equipos protegidos frente a malware.
¿Listo para empezar?
Nuestro tutorial paso a paso le ayudará a ejecutar ML.NET en su equipo.