Microsoft Defender が ML.NET を使用してマルウェアを阻止
Microsoft Defender Advanced Threat Protection (ATP) は、インテリジェントな予防保護、侵害後の検出、自動調査、対応のための Microsoft の統合セキュリティ プラットフォームです。サイバー脅威からエンドポイントを保護し、高度な攻撃とデータ侵害を検出し、セキュリティ インシデントを自動化し、クラウドの力、行動分析、機械学習を組み合わせてセキュリティ態勢を改善します。
ビジネスの問題
Microsoft Defender ATP は、毎日何兆もの信号を処理し、毎月約 50 億もの新しい脅威を検出しています。これらの脅威は、ユーザーの資格情報を詐取しようとする PDF や、武器化されたマクロを含むドキュメント ファイル、ポリモーフィックなマルウェア実行可能ファイルを含むパスワード保護された ZIP ファイルなど多岐にわたります。
これらの脅威を一目で予測して阻止できることは、クライアントの安全とセキュリティにとって非常に重要です。 しかし、人間は一度にたくさんの情報を見て、心に留めることしかできません。 これらの各属性を手動で確認することは時間のかかる作業であり、入ってくる脅威から防御するのに十分な速さではありません。 毎月見られる新しい脅威の規模により、人間が行う手動プロセスは決してスケーラブルではなく、機械学習は便利なだけでなく、ユーザーを保護するためにも必要です。 さらに、誰かがマルウェアの一部を見て、それを悪意のあるものにするいくつかの属性を見つけるかもしれませんが、実際には、マルウェアには、人間が理解するのに時間がかからない脅威を示す何十万もの他の属性がある可能性があります。
一方、マシンには、より大きな容量とより速い応答時間があります。マシンは、脅威の可能性のあるすべての属性 (場合によっては数十万もの属性) を瞬時に調べ、その脅威をマルウェアとしてラベル付けする属性をすべて抽出することができます。その後、マシンは検出した属性を使用して、人間がわずかな数の属性を使用したのでは予測できないような新しいマルウェアを発見することができます。
そこで、Microsoft Defender ATP では、機械学習と ML.NET (厳密には、Microsoft で 10 年以上使用されている内部機械学習フレームワークである TLC という ML.NET の派生物を使用しています) を活用して、マルウェアに対するリアルタイム保護機能を改善し、信号が悪意のあるものかどうかをより簡単かつ正確に予測し、受信する脅威をブロックして、ユーザーのマシンの安全を維持します。
ML.NET の影響
Microsoft Defender ATP では、分類アルゴリズムを使用して、今までは見えなかった脅威を含む脅威にフラグを設定し、表面化します。これは、何十億もの通常のイベントの中で気付かれずに残り、第 1 世代のセンサーは未知の微妙な刺激に対応できませんでした。Microsoft Defender ATP のモデルは、Microsoft Defender ATP で使用できる膨大な量のデータと計算リソースの使用を最適化します。さらに、Microsoft Defender ATP による実際のアラートの分析に基づいて、使用されている機械学習テクノロジは、手動で作成されたヒューリスティックよりも少なくとも 20% 正確です。ML.NET の監視された機械学習アルゴリズムは、侵害前レベルで脅威の 35% を停止し、悪意のある URL、電子メールの添付ファイル、その他の新たな脅威から保護し、マルウェアから保護します。
ソリューション アーキテクチャ
データの処理と機能の選択
Microsoft Defender ATP では、実際のシナリオを模倣し、実際のユーザーが毎日見る内容を実証できるように、学習データセットにクリーン データとマルウェアを含む、素晴らしいラベル付き学習データセットを用意することが重要です。平均的な学習サイクルでは、Microsoft Defender ATP のモデルでは、それぞれ 19 万件の特徴量を持つ 1 億行のデータを消費する可能性があります。
マルウェアを検出するモデルを学習する場合は、特徴量の選択が非常に重要です。研究者やマシンが検索する特徴量には、静的なファイルのプロパティと動作コンポーネントの 2 種類があります。静的なファイルのプロパティには、ファイルが署名されているかどうか、誰が署名したか、さまざまなファジー ハッシュなどがあります。動作属性には、ファイルが他のファイルと関連しているかどうか、取り込まれたファイルが他のファイルからのものかどうか、ファイルがどの IP に接続されているか、ファイルがシステムにどのような変更を加えたか、などがあります。学習データセットには、数千から数百万の特徴量が含まれます。
モデル トレーニング
Microsoft Defender ATP には、複数の目的で機能するさまざまなモデルがあります。たとえば、最初に表示される PE の脅威、マクロの脅威、およびスクリプトベースの攻撃に焦点を絞ったモデルがあります。基になるデータに焦点を絞ったモデルもあります。たとえば、一部のモデルでは、ファイルのあいまいなハッシュを排他的にトレーニングします。これらの上には、システム アクティビティが悪意のある場合に再びチェックするために、個々の分類子からのシグナルを実行する、アンサンブル モデルの別のレイヤーがあります。
Microsoft Defender ATP は、最新のデータでこれらのモデルを毎日トレーニングします。モデルはトレーニングされると保存され、エンジニアリング パイプラインによって、クライアントによってクエリが実行される Defender クラウド インフラストラクチャに読み込まれます。
[モデルの] 多様性は、改ざんに強い機械学習システムの実現に不可欠な鍵です。"
ML.NET のアルゴリズムを使用することで、Microsoft Defender ATP は、潜在的な脅威からユーザーをより効果的に保護するための多数の機械学習モデルを生成することができ、5 億人のユーザーのコンピューターをマルウェアから守り続けています。
準備はできましたか?
このステップ バイ ステップ チュートリアルは、あなたのコンピューターで ML.NET を実行するのに役立ちます。