Lerntypen, die Cybersecurity AI nutzen sollte

18. Juli 2018
Sohrob Kazerounian
Distinguished AI Researcher
Lerntypen, die Cybersecurity AI nutzen sollte

Trotz der jüngsten explosionsartigen Zunahme der Forschung im Bereich des maschinellen Lernens und der künstlichen Intelligenz (KI) gibt es keine einzige Methode oder keinen einzigen Algorithmus, der in allen Fällen am besten funktioniert. Tatsächlich wurde dieser Gedanke formalisiert und mathematisch in einem Ergebnis dargestellt, das als No Free Lunch Theorem bekannt ist (Wolpert und Macready 1997).

AI Künstliche Intelligenz - Teil 5

Kein einziger Algorithmus wird alle anderen Algorithmen in allen möglichen Problemräumen übertreffen, insbesondere wenn man verschiedene reale Einschränkungen wie Raum- und Zeitkomplexität und Verfügbarkeit von Trainingsdaten berücksichtigt.

Daher müssen KI-Systeme, die fortgeschrittene Cybersicherheitsbedrohungen erkennen sollen, auf die spezifischen Probleme zugeschnitten sein, für die sie eingesetzt werden, und sollten die besten verfügbaren Tools und Algorithmen für die Arten von Erkennungen nutzen, die sie auslösen sollen.

Wie in anderen Bereichen müssen KI-Systeme im Bereich der Cybersicherheit anhand der folgenden Kriterien validiert werden:

  1. Kann das KI-System erkennen, gruppieren, klassifizieren und Vorhersagen treffen, die von Menschen allein nicht erkannt, gruppiert, klassifiziert oder vorhergesagt werden könnten?
  2. Macht das KI-System Vorhersagen und Klassifizierungen, die den Umfang der erforderlichen menschlichen Eingriffe und Analysen verringern? Macht es Vorhersagen und Klassifizierungen, die den Umfang der erforderlichen menschlichen Eingriffe und Analysen erhöhen?

Die Entwicklung eines KI-Systems, das in der Lage ist, beide Ziele gleichzeitig zu erreichen, erfordert ein tiefes Verständnis des Problembereichs und ein umfassendes Wissen über maschinelle Lernalgorithmen im Allgemeinen. Versuche, monolithische Lösungen zu verwenden, die einheitlich über die unzähligen Sicherheitsbedrohungen und Eindringlinge in modernen Netzwerken lernen, werden zwangsläufig das erste Ziel verfehlen und zu viele falsche Erkennungen erzeugen, um einen Nutzen für das zweite Ziel zu bieten.

Ebenso erfordert die Verwendung mehrerer Techniken oder Algorithmen zur unabhängigen Erkennung jeder Art von Bedrohung eine genaue Kenntnis der Funktionsweise der einzelnen Algorithmen und der Möglichkeiten, die sie nicht bieten. Unvollständiges Wissen über den Algorithmus kann dazu führen, dass die Fähigkeit eines Systems, eine Bedrohung zu erkennen, nur unzureichend ist und die Netzwerkadministratoren aufgrund von Fehlalarmen viel Arbeit haben.

Umfang des Problems

Da die Bedrohungen für die Cybersicherheit heutzutage sehr vielfältig sind, sollte jedes Team, das KI-Lösungen für die automatische Erkennung von Cyberangriffen entwickelt, über eine Vielzahl von Algorithmen verfügen. Dazu gehören Techniken aus den Bereichen Zeitreihenanalyse, NLP, Statistik, neuronale Netze, lineare Algebra und Topologie. Die erste Entscheidung, die für einen Algorithmus getroffen werden muss, ist jedoch, ob er lernen soll, Vorhersagen auf überwachte oder nicht überwachte Weise zu treffen.

Gibt es einen Datensatz mit gekennzeichneten Daten, aus dem ein Algorithmus lernen kann, Eingaben den Kennzeichnungen zuzuordnen? Oder muss der Algorithmus lernen, welche Eingaben bösartig sind und welche nicht, und zwar auf unüberwachte Weise, ohne Verwendung von Kennzeichnungen? Wenn ein markierter Datensatz vorhanden ist, ist dieser ausreichend repräsentativ für die Angriffsfläche, für die der Algorithmus entwickelt werden soll? Werden die Daten aus einer Verteilung entnommen, die den Raum der Netzwerk-, Geräte-, Benutzer- und Verbindungstypen abdeckt, die beim Einsatz des Systems in der Produktion zu beobachten sein werden? Selbst wenn diese Kriterien zutreffen, gibt es Gründe, Methoden des unüberwachten Lernens zu bevorzugen, die die Klassenbezeichnungen völlig ignorieren?

Im Falle von Domänengenerierungsalgorithmen (DGAs), bei denen ein infizierter Host Verbindungen zu Domänen herstellt, deren Namen zufällig generiert wurden, um zu vermeiden, dass die Domäne einfach auf eine schwarze Liste gesetzt wird, enthalten mehrere große Datensätze Beispiele für bekannte gute Domänen (in der nachstehenden Tabelle als Klasse 0 gekennzeichnet) und bekannte DGA-Domänen (Klasse 1). Der beschriftete Trainingssatz kann verwendet werden, um eine funktionale Zuordnung zwischen dem Domänennamen und der Klasse (normal vs. DGA, 0 vs. 1) zu lernen. Es ist auch möglich, unüberwachte Methoden zu verwenden, die etwas über die zugrundeliegenden Statistiken normaler Domänen lernen können, die alles, was nicht "normal" ist, als von einer DGA erzeugt kennzeichnen würden.

Der Einsatz des unüberwachten Lernens könnte von Vorteil sein, wenn die fraglichen Datensätze veraltet sind oder Fehler enthalten. Noch schädlicher könnte es sein, wenn die Angreifer die Trainingsdatensätze bereits kennen, um ihre DGAs so anzupassen, dass sie nicht entdeckt werden.

Normaler Bereich (Klassenzeichen 0)

DGA-Bereich (Klassenbezeichnung 1)

google.de

tmwqfxrmb.ac

soundcloud.de

pkmeprkwtxigpnjshcsddhkgn.in

litetech.eu

nawntgvcbixvwh.net

stadt-forschung.jp

gujtvpqvd.com

Um eine solche Entscheidung zu treffen, muss man den betreffenden Angriff verstehen. Außerdem muss man die richtigen Techniken zum Trainieren, Testen und Validieren von Modellen kennen, um die Überanpassung an einen bestimmten Datensatz zu quantifizieren und gleichzeitig eine Verallgemeinerung auf neue und ungesehene Daten zu ermöglichen.