Microsoft Defender usa ML.NET per arrestare il malware
Cliente
Microsoft Defender ATP
Prodotti e servizi
ML.NET
Settore
Tecnologia
Dimensioni dell'organizzazione
Grande (oltre 1000 dipendenti)
Paese/area geografica
Stati Uniti
Microsoft Defender Advanced Threat Protection (ATP) è la piattaforma di sicurezza unificata di Microsoft per la protezione preventiva intelligente, il rilevamento post-violazione, l'indagine automatizzata e la risposta. Protegge gli endpoint dalle minacce informatiche, rileva attacchi avanzati e violazioni dei dati, automatizza gli incidenti di sicurezza e migliora la postura di sicurezza combinando la potenza del cloud, l'analisi del comportamento e Machine Learning.
Problema aziendale
Microsoft Defender ATP elabora miliardi di segnali ogni giorno e trova circa 5 miliardi di nuove minacce ogni mese. Queste minacce vanno dai PDF che tentano di carpire le credenziali degli utenti ai file di documenti contenenti macro usate con intento malevolo, fino ai file zip protetti da password contenenti eseguibili di malware polimorfi.
La possibilità di prevedere e arrestare queste minacce al primo rilevamento è fondamentale per la sicurezza e la sicurezza dei client. Tuttavia, gli esseri umani possono solo guardare e tenere nella mente così tante informazioni contemporaneamente. L'esecuzione manuale di ognuno di questi attributi è un'attività che richiede molto tempo e non è sufficientemente veloce da difendersi dalle minacce in ingresso. Con la scalabilità delle nuove minacce rilevate ogni mese, un processo manuale eseguito da un essere umano non sarebbe mai scalabile, rendendo l'apprendimento automatico non solo interessante, ma necessario per proteggere gli utenti. Inoltre, qualcuno potrebbe esaminare un malware e trovare alcuni attributi che lo rendono dannoso, ma in realtà il malware potrebbe avere centinaia di migliaia di altri attributi che indicano una minaccia che un utente non ha il tempo di scoprire.
I computer, d'altra parte, hanno una capacità molto maggiore e un tempo di risposta molto più veloce; possono esaminare immediatamente tutti (probabilmente centinaia di migliaia) gli attributi di una potenziale minaccia e individuare tutti gli attributi che etichettano la minaccia come malware. I computer possono quindi usare gli attributi trovati per individuare nuovi malware che un essere umano potrebbe non aver stimato usando solo un numero limitato di attributi.
Microsoft Defender ATP ha quindi deciso di usare l'apprendimento automatico e ML.NET (tecnicamente usa un derivato di ML.NET chiamato TLC, che è stato il framework di apprendimento automatico interno usato da Microsoft per più di 10 anni), per migliorare la protezione in tempo reale dai malware, in modo da poter stimare in modo più semplice e preciso se i segnali sono dannosi e bloccare le minacce in ingresso per proteggere i computer dei clienti.
Impatto di ML.NET
Microsoft Defender ATP usa algoritmi di classificazione per contrassegnare ed esporre le minacce, incluse le minacce non rilevate in precedenza, che non verrebbero altrimenti rilevate tra i miliardi di eventi normali e a causa dell'incapacità dei sensori di prima generazione di reagire a stimoli non familiari e deboli. I modelli di Microsoft Defender ATP ottimizzano l'uso di quantità elevate di dati e di risorse di elaborazione disponibili per Microsoft Defender ATP. In base all'analisi di Microsoft Defender ATP degli avvisi effettivi, le tecnologie di apprendimento automatico usate risultano inoltre più precise del 20% rispetto all'euristica definita manualmente. Gli algoritmi di apprendimento automatico supervisionato di ML.NET bloccano il 35% delle minacce a livello di pre-violazione, proteggendo quindi da malware proveniente da URL dannosi, allegati di posta elettronica e altre minacce esistenti.
Architettura della soluzione
Elaborazione dati e selezione delle funzionalità
Per Microsoft Defender ATP è essenziale avere un set ottimale di dati di training con etichette che include dati puliti e malware nel set di dati di training, in modo da simulare scenari concreti e riprodurre quello che un cliente reale vede ogni giorno. In un ciclo di training medio un modello in Microsoft Defender ATP può utilizzare ~100 milioni di righe di dati, ognuna delle quali con 190.000 caratteristiche.
La selezione delle funzionalità è molto importante quando si esegue il training di modelli che rilevano malware. I ricercatori ed i computer cercano due tipi di funzionalità: le proprietà dei file statici e i componenti comportamentali. Le proprietà dei file statici includono elementi come se un file è firmato o meno, chi ha firmato il file e vari hash fuzzy. Gli attributi comportamentali includono elementi come se il file è correlato a un altro file, se il file è stato inserito da un altro file, a quali indirizzi IP è connesso il file e a quali modifiche ha apportato il file al sistema. Un set di dati di training può includere da migliaia a milioni di funzionalità.
Training del modello
Microsoft Defender ATP ha una varietà di modelli per soddisfare più esigenze. Ad esempio, ci sono modelli che si basano sulle minacce PE rilevate per la prima volta, sulle minacce macro e sugli attacchi basati su script. Sono presenti anche modelli incentrate sui dati sottostanti; ad esempio, viene eseguito il training di alcuni modelli esclusivamente su hash fuzzy di file. Oltre a questi, hanno un altro livello di modelli che ricevono segnali da classificatori singoli per controllare di nuovo se l'attività del sistema è dannosa.
Microsoft Defender ATP addestra giornalmente i modelli sui dati più recenti. Dopo aver eseguito il training, il modello viene salvato e la pipeline di progettazione lo carica nell'infrastruttura cloud di Defender dove vengono eseguite le query dai client.
La diversità [dei modelli] costituisce davvero la chiave per ottenere un sistema di apprendimento automatico a prova di manomissione."
Usando gli algoritmi di ML.NET, Microsoft Defender ATP è stato in grado di produrre una grande quantità di modelli di Machine Learning per proteggere in modo più efficace gli utenti da potenziali minacce, proteggendo mezzo miliardo di computer di persone dal malware.
Pronti per iniziare?
Questa esercitazione dettagliata ti aiuterà a ottenere ML.NET in esecuzione nel computer.