Microsoft Defender utilise ML.NET pour arrêter les logiciels malveillants
Client
Microsoft Defender ATP
Produits & services
ML.NET
Secteur
Technologie
Taille de l’organisation
Grand (1000+ employés)
Pays/région
États-Unis
Microsoft Defender Advanced Threat Protection (ATP) est une plateforme de sécurité unifiée de Microsoft pour une protection préventive intelligente, une détection post-effraction, une investigation automatisée et une réponse. Il protège les points de terminaison contre les menaces informatiques, détecte les attaques avancées et les fuites de données, automatise les incidents de sécurité et améliore la position de la sécurité grâce à une combinaison de la puissance du Cloud, de l’analytique du comportement et de Machine Learning.
Problème d’entreprise
Microsoft Defender ATP traite des milliards de signaux chaque jour et détecte environ 5 milliards de nouvelles menaces chaque mois. Ces menaces vont des fichiers PDF qui tentent d'hameçonner les informations d'identification des utilisateurs et des fichiers de documents contenant des macros militarisées aux fichiers zip protégés par mot de passe contenant des exécutables de logiciels malveillants polymorphes.
Être capable de prévoir et d'arrêter ces menaces à première vue est essentiel pour la sûreté et la sécurité des clients. Cependant, les humains ne peuvent regarder et conserver qu'une quantité limitée d'informations dans leur esprit à la fois. Parcourir manuellement chacun de ces attributs est une tâche qui prend du temps et n'est pas assez rapide pour se défendre contre les menaces entrantes. Avec l'ampleur des nouvelles menaces observées chaque mois, un processus manuel effectué par un humain ne serait jamais évolutif, ce qui rend l'apprentissage automatique non seulement agréable à avoir, mais nécessaire pour protéger les utilisateurs. De plus, quelqu'un peut regarder un logiciel malveillant et trouver quelques attributs qui le rendent malveillant, mais en réalité, le logiciel malveillant peut avoir des centaines de milliers d'autres attributs qui indiquent une menace qu'un humain ne pourrait pas prendre le temps de comprendre.
Les machines, en revanche, ont une capacité beaucoup plus grande et un temps de réponse beaucoup plus rapide ; ils peuvent instantanément examiner tous les attributs d'une menace potentielle (éventuellement des centaines de milliers) et sélectionner tous les attributs qui qualifient la menace de malware. Ensuite, les machines peuvent utiliser les attributs qu'elles ont trouvés pour découvrir de nouveaux logiciels malveillants qu'un humain n'aurait peut-être pas prédits en utilisant seulement un petit nombre d'attributs.
Par conséquent, Microsoft Defender ATP a décidé d’utiliser le Machine Learning et le ML.NET (techniquement, il utilise une dérivée de ML.NET appelée TLC, qui est l’infrastructure de Machine Learning interne utilisée chez Microsoft depuis plus de 10 ans), afin d’améliorer la protection en temps réel contre les programmes malveillants afin qu’ils puissent prédire plus facilement et avec plus de précision si les signaux sont malveillants et bloquer les menaces entrantes pour assurer la sécurité des ordinateurs de leurs utilisateurs.
Impact de ML.NET
Microsoft Defender ATP utilise des algorithmes de classification pour signaler et signaler les menaces, y compris les menaces inédites, qui resteraient autrement inaperçues parmi les milliards d'événements normaux et l'incapacité des capteurs de première génération à réagir aux stimuli inconnus et subtils. Les modèles de Microsoft Defender ATP optimisent l'utilisation des grandes quantités de données et de ressources de calcul disponibles pour Microsoft Defender ATP. De plus, sur la base de l'analyse des alertes réelles par Microsoft Defender ATP, les technologies d'apprentissage automatique utilisées sont au moins 20 % plus précises que les heuristiques élaborées manuellement. Les algorithmes d'apprentissage automatique supervisé de ML.NET bloquent 35 % des menaces au niveau précédant la violation, ce qui protège contre les logiciels malveillants provenant d'URL malveillantes, de pièces jointes à des e-mails et d'autres menaces émergentes.
Architecture de la solution
Traitement des données et sélection des fonctionnalités
Pour Microsoft Defender ATP, il est essentiel d’avoir un grand ensemble de données d’entraînement étiquetées qui incluent des données propres et des programmes malveillants dans le jeu de données d’entraînement afin qu’il puisse reproduire des scénarios réels et montrer ce qu’un client réel voit chaque jour. En moyenne, un modèle dans Microsoft Defender ATP peut consommer environ 100 millions de lignes de données avec 190 000 fonctionnalités chacune.
La sélection des fonctionnalités est très importante lors de l’entraînement de modèles qui détectent des programmes malveillants. Les chercheurs et les ordinateurs recherchent deux types de fonctionnalités : les propriétés statiques des fichiers et les composants comportementaux. Les propriétés de fichier statiques incluent des éléments tels que si un fichier est signé ou non, qui a signé le fichier et divers hachages approximatives. Les attributs comportementaux incluent des éléments tels que si le fichier est lié à un autre fichier, si ce fichier injecté est issu d’un autre fichier, quelles adresses IP le fichier est connecté et quelles modifications ont été apportées au système. Un jeu de données d’entraînement peut inclure des milliers à des millions de fonctionnalités.
Entraînement de modèle
Microsoft Defender ATP propose une variété de modèles pour répondre à plusieurs objectifs. Par exemple, ils ont des modèles qui se concentrent sur les premières menaces PE, les macro-menaces et les attaques basées sur des scripts. Il existe également des modèles axés sur les données sous-jacentes ; par exemple, certains modèles s'entraînent exclusivement sur des hachages flous de fichiers. En plus de cela, ils ont une autre couche de modèles d'ensemble qui prennent les signaux de ces classificateurs individuels pour vérifier à nouveau si l'activité du système est malveillante.
Microsoft Defender ATP forme ces modèles quotidiennement sur les dernières données. Une fois le modèle formé, il est enregistré et le pipeline d'ingénierie le charge dans l'infrastructure cloud Defender où il est interrogé par les clients.
La diversité [des modèles] est vraiment essentielle pour avoir un système de machine learning résistant à la falsification.\ »
À l’aide des algorithmes de ML.NET, Microsoft Defender ATP a pu produire une multitude de modèles Machine Learning pour protéger plus efficacement ses utilisateurs contre les menaces potentielles, en protégeant un demi-milliard d’ordinateurs de personnes contre les programmes malveillants.
Prêt à démarrer ?
Notre tutoriel étape par étape vous aidera à démarrer ML.NET sur votre ordinateur.