KI-Systeme sind keine gewöhnliche Software — und sie können nicht mit gewöhnlichen Methoden getestet werden. Am 28. Februar 2026 bewies der McKinsey-Lilli-Vorfall auf dramatische Weise, was passiert, wenn KI-Sicherheit vernachlässigt wird: 46,5 Millionen interne Nachrichten wurden in unter zwei Stunden exfiltriert, weil ein KI-Assistent mit viel zu weitreichenden Berechtigungen ausgestattet war. Kein Vulnerability Scanner hatte das Problem erkannt. Kein traditioneller Penetrationstest hatte es getestet. Es brauchte einen Angreifer — oder hätte einen KI Red Teamer gebraucht — um diese Schwachstelle aufzudecken.

Für Schweizer Unternehmen, die KI-Systeme einsetzen oder planen, ist die Botschaft eindeutig: Traditionelle Sicherheitstests reichen nicht aus. KI-Systeme erfordern KI-spezifische Sicherheitsprüfungen — und das nennt sich KI Red Teaming.

Was ist KI Red Teaming?

KI Red Teaming ist die systematische, adversariale Prüfung von KI-Systemen auf Schwachstellen, Fehlverhalten und Sicherheitslücken. Anders als bei einem klassischen Penetrationstest geht es nicht um die Überprüfung von Netzwerken, Firewalls oder Webapplikationen, sondern um die spezifischen Risiken, die entstehen, wenn ein System auf maschinellem Lernen basiert — insbesondere grosse Sprachmodelle (Large Language Models, LLMs).

Ein KI Red Team simuliert reale Angriffe gegen KI-Systeme und versucht dabei:

  • Prompt Injection: Das Modell dazu zu bringen, seine Systemprompts preiszugeben, Sicherheitsgrenzen zu umgehen oder unbeabsichtigte Aktionen auszuführen
  • Datenexfiltration: Sensible Trainings- oder Kontextdaten über das Modell zu extrahieren
  • Jailbreaking: Sicherheitsrichtlinien zu umgehen und das Modell zu gefährlichem oder unethischem Output zu bewegen
  • Tool Abuse: KI-Agenten mit Tool-Zugriff dazu zu missbrauchen, unerlaubte Aktionen in verbundenen Systemen durchzuführen
  • Privilege Escalation: Über den KI-Zugang erweiterte Berechtigungen in der Unternehmensinfrastruktur zu erlangen

«KI Red Teaming ist keine Luxusübung für Technologiekonzerne — es ist eine betriebliche Notwendigkeit für jedes Unternehmen, das KI-Systeme mit Zugang zu internen Daten oder Systemen einsetzt.»

— OWASP Foundation, AI Security Guidelines 2026

Der McKinsey-Lilli-Vorfall: Eine Fallstudie

Am 28. Februar 2026 wurde öffentlich bekannt, dass McKinseys interner KI-Assistent «Lilli» eine kritische Sicherheitslücke aufwies. Lilli war als unternehmensweiter KI-Assistent konzipiert, der Beratern bei Recherchen, Analysen und dem Zugriff auf interne Wissensdatenbanken helfen sollte. Das System hatte Zugriff auf interne Kommunikationskanäle, Projektdaten und Kundendokumente.

Was geschah

Ein Sicherheitsforscher entdeckte, dass Lillis Systemprompt über eine einfache Prompt-Injection-Technik ausgelesen werden konnte. Schlimmer noch: Der KI-Assistent hatte weitreichende Leseberechtigungen auf interne Systeme — und diese Berechtigungen konnten über gezielte Prompts missbraucht werden.

Das Ergebnis:

  • 46,5 Millionen interne Nachrichten waren potenziell exponiert
  • Unter 2 Stunden dauerte die Demonstration des Angriffs
  • Keine Erkennung durch bestehende Sicherheitssysteme
  • Systemprompt mit Schreibzugriff auf interne Systeme war auslesbar

Warum traditionelle Sicherheitstests versagten

McKinsey verfügte über ein ausgereiftes Cybersicherheitsprogramm mit regelmässigen Penetrationstests, Vulnerability Scanning und einem professionellen Security Operations Center (SOC). Keine dieser Massnahmen erkannte die Schwachstelle, weil:

  1. Penetrationstests die Webapplikation und API-Endpunkte auf klassische Schwachstellen (SQL Injection, XSS, CSRF) prüften — nicht auf Prompt Injection oder LLM-spezifische Angriffsvektoren
  2. Vulnerability Scanner nach bekannten CVEs in der Infrastruktur suchten — nicht nach logischen Schwachstellen in KI-Systemen
  3. SOC-Monitoring auf Netzwerkanomalien und bekannte Angriffsmuster trainiert war — aber KI-spezifischer Missbrauch innerhalb «normaler» API-Aufrufe stattfand
  4. Zugriffskontrollen nicht für KI-spezifische Angriffsvektoren konzipiert waren — der KI-Assistent hatte seine Berechtigungen «legitim» erhalten

Dieser Vorfall illustriert ein fundamentales Problem: Traditionelle Sicherheitstests und KI-Sicherheit operieren in unterschiedlichen Dimensionen. Die eine ergänzt die andere, ersetzt sie aber nicht.

Warum traditionelle Penetrationstests KI-Schwachstellen übersehen

Der OWASP-Vergleich macht es deutlich

Die OWASP Foundation unterhält zwei separate Top-10-Listen, die die fundamentale Verschiedenheit der Bedrohungslandschaften illustrieren:

OWASP Top 10 Web Application Security Risks (traditionell):

  1. Broken Access Control
  2. Cryptographic Failures
  3. Injection (SQL, XSS)
  4. Insecure Design
  5. Security Misconfiguration
  6. Vulnerable and Outdated Components
  7. Identification and Authentication Failures
  8. Software and Data Integrity Failures
  9. Security Logging and Monitoring Failures
  10. Server-Side Request Forgery

OWASP Top 10 for LLM Applications (2025):

  1. Prompt Injection
  2. Insecure Output Handling
  3. Training Data Poisoning
  4. Model Denial of Service
  5. Supply Chain Vulnerabilities
  6. Sensitive Information Disclosure
  7. Insecure Plugin Design
  8. Excessive Agency
  9. Overreliance
  10. Model Theft

Die Listen überschneiden sich kaum. Ein Penetrationstester, der auf SQL Injection und XSS prüft, findet keine Prompt Injection. Ein Scanner, der nach veralteten Softwareversionen sucht, erkennt kein «Excessive Agency»-Problem, bei dem ein KI-Assistent zu viele Berechtigungen hat.

Spezifische Lücken traditioneller Tests

BereichTraditioneller PentestKI Red Teaming
Prompt InjectionNicht im ScopeKernkompetenz
Datenexfiltration via LLMNicht erkennbarSystematisch getestet
Jailbreak-ResistenzNicht getestetHunderte Techniken
Tool/Agent AbuseNicht relevantKritisch
Systemprompt-LeakageNicht bekanntStandard-Testfall
Model PoisoningNicht testbarSpezialisierte Methodik
Halluzination mit SicherheitsrelevanzNicht erkanntGezielt provoziert
Excessive AgencyNicht im FrameworkZentrale Prüfung

«Prompt Injection ist das SQL Injection der KI-Welt — aber kein SQL-Injection-Scanner findet es.»

— Simon Willison, KI-Sicherheitsforscher

Welche Schweizer Unternehmen brauchen KI Red Teaming?

KI Red Teaming ist nicht nur für Technologieunternehmen relevant. Jedes Unternehmen, das KI-Systeme einsetzt, die eine oder mehrere der folgenden Kriterien erfüllen, sollte KI Red Teaming in Betracht ziehen:

KI-Systeme mit Datenzugang

Wenn Ihr KI-System Zugriff auf interne Daten hat — sei es ein KI-Assistent, der auf CRM-Daten zugreift, ein Chatbot, der Kundendaten verarbeitet, oder ein KI-Tool, das interne Dokumente analysiert — besteht ein Exfiltrationsrisiko, das nur durch adversariales Testing identifiziert werden kann.

KI-Systeme mit Tool-Zugriff

KI-Agenten, die E-Mails senden, Kalender verwalten, Datenbanken abfragen oder externe APIs aufrufen können, haben eine Angriffsfläche, die weit über das Modell selbst hinausgeht. Der McKinsey-Vorfall zeigt, was passiert, wenn ein KI-Agent zu viele Berechtigungen erhält.

Kundenseitige KI-Systeme

Chatbots, virtuelle Assistenten und andere kundenseitige KI-Systeme sind direkt von externen Nutzern ansprechbar — und damit direkt angreifbar. Jeder Nutzer kann versuchen, das System zu manipulieren.

KI in regulierten Branchen

Unternehmen in regulierten Branchen — Finanzdienstleistungen, Gesundheitswesen, Versicherungen — unterliegen erhöhten Sorgfaltspflichten. Der EU AI Act verlangt ab August 2026 explizit «adversarial testing» für Hochrisiko-KI-Systeme.

Shadow AI im Unternehmen

Laut einer Studie von gfs-zürich (2025) nutzen 67 Prozent der Schweizer KMU KI-Tools, aber nur 18 Prozent haben Richtlinien dafür. Shadow AI — die unkontrollierte Nutzung von KI-Tools durch Mitarbeitende — ist eine Angriffsfläche, die viele Unternehmen gar nicht kennen. Mehr dazu in unserem Artikel über Shadow AI Risiken.

Der EU AI Act und die Pflicht zum Adversarial Testing

Der EU AI Act, der am 2. August 2026 vollständig in Kraft tritt, enthält eine explizite Anforderung für adversariales Testing (Red Teaming) von KI-Systemen. Artikel 9 der Verordnung verlangt für Hochrisiko-KI-Systeme:

  • Systematische Risikoanalyse unter Berücksichtigung adversarialer Angriffe
  • Robustheitstests gegen gezielte Manipulation
  • Dokumentation der durchgeführten Sicherheitsprüfungen
  • Regelmässige Wiederholung der Tests über den gesamten Lebenszyklus

Für Schweizer Unternehmen, die KI-Produkte oder -Dienstleistungen in der EU anbieten oder EU-Kunden bedienen, ist diese Anforderung verbindlich. Strafen bei Nichteinhaltung können bis zu 35 Millionen Euro oder 7 Prozent des weltweiten Jahresumsatzes betragen.

«Adversarial Testing ist keine optionale Best Practice mehr — es ist eine regulatorische Pflicht. Unternehmen, die KI-Systeme ohne Red Teaming in den Markt bringen, handeln nicht nur fahrlässig, sondern potenziell rechtswidrig.»

— EU-Kommission, Erläuterungen zum AI Act, 2025

Lesen Sie unsere vollständige Analyse der Auswirkungen des EU AI Act auf Schweizer Unternehmen.

Wie funktioniert KI Red Teaming in der Praxis?

Ein professionelles KI Red Teaming Engagement folgt einem strukturierten Prozess, der sich von traditionellen Penetrationstests deutlich unterscheidet.

Phase 1: Aufklärung und Scoping (1-2 Tage)

Das Red Team analysiert die KI-Architektur: Welches Modell wird eingesetzt? Welche Systemprompts sind konfiguriert? Welche Tools und APIs hat der KI-Agent zur Verfügung? Welche Datenquellen sind angebunden? Welche Berechtigungen hat das System?

Phase 2: Threat Modelling (1-2 Tage)

Basierend auf der Architekturanalyse werden spezifische Bedrohungsszenarien entwickelt. Das Red Team erstellt ein Angriffsmodell, das die wahrscheinlichsten und gefährlichsten Angriffspfade identifiziert — basierend auf dem OWASP Top 10 for LLM Applications und dem MITRE ATLAS Framework.

Phase 3: Adversariales Testing (3-10 Tage)

Das Kernstück des Engagements. Das Red Team führt systematische Angriffe gegen das KI-System durch:

  • Prompt Injection Kampagnen: Hunderte von Injection-Techniken werden getestet — direkte, indirekte, kontextuelle, multimodale
  • Jailbreak-Versuche: Systematische Umgehung von Sicherheitsrichtlinien und Content-Filtern
  • Datenexfiltration: Versuch, sensitive Daten aus dem Kontext, den Trainingsdaten oder verbundenen Systemen zu extrahieren
  • Tool/Agent Abuse: Missbrauch von Tool-Aufrufen und API-Zugriffen für unbeabsichtigte Aktionen
  • Privilege Escalation: Versuch, über den KI-Zugang erweiterte Berechtigungen zu erlangen
  • Denial of Service: Tests auf Ressourcenverbrauch und Modell-spezifische DoS-Vektoren

Phase 4: Dokumentation und Reporting (2-3 Tage)

Das Red Team dokumentiert alle Findings mit Reproduktionsschritten, Risikobeurteilung (CVSS-Scoring adaptiert für KI), und konkreten Handlungsempfehlungen. Der Bericht enthält:

  • Executive Summary für die Geschäftsleitung
  • Technische Details für das Entwicklungsteam
  • Priorisierte Massnahmenempfehlungen
  • Compliance-Mapping (EU AI Act, nDSG)

Phase 5: Remediation Support (optional)

Erfahrene KI-Red-Teaming-Anbieter bieten Unterstützung bei der Behebung der gefundenen Schwachstellen — von der Anpassung der Systemprompts über die Implementierung von Output-Filtern bis zur Neugestaltung der Berechtigungsarchitektur.

KI-Schwachstellen, die nur Red Teaming findet

Excessive Agency (McKinsey-Typ)

Ein KI-Assistent hat Zugriff auf mehr Systeme und Daten, als für seine Funktion notwendig ist. Automatisierte Scanner prüfen nicht, ob ein KI-System «zu viel kann» — das ist eine Designentscheidung, die nur durch adversariales Testing hinterfragt wird.

Kontextuelle Prompt Injection

Ein Angreifer platziert Instruktionen in Dokumenten, E-Mails oder Webseiten, die der KI-Assistent verarbeitet. Wenn der Assistent diese Instruktionen als Befehle interpretiert, kann der Angreifer den Assistenten fernsteuern. Scanner suchen nach SQL-Injection-Patterns — nicht nach versteckten Anweisungen in natürlicher Sprache.

Cross-Plugin/Tool-Exploitation

In Systemen, wo KI-Agenten mehrere Tools nutzen (E-Mail, Kalender, Dateisystem, Web), können Angreifer Tool-Aufrufe verketten, um Aktionen durchzuführen, die einzeln harmlos, in Kombination aber gefährlich sind. Traditionelle Tests prüfen Tools isoliert.

Systemprompt-basierte Schwachstellen

Viele KI-Implementierungen enthalten sensitive Informationen im Systemprompt — API-Schlüssel, Datenbankzugangsdaten, interne URLs, Geschäftslogik. Ein klassischer Pentest sucht nach solchen Credentials in Konfigurationsdateien — nicht im Systemprompt eines LLM.

Statistiken: Der aktuelle Stand der KI-Sicherheit

Die Zahlen verdeutlichen die Dringlichkeit:

  • 73 Prozent aller produktiven KI-Systeme sind anfällig für Prompt Injection (OWASP AI Security Report, 2025)
  • 82 Prozent der Unternehmen mit KI-Systemen haben noch kein KI-spezifisches Security-Assessment durchgeführt (Gartner, 2025)
  • 46,5 Millionen Nachrichten waren im McKinsey-Lilli-Vorfall exponiert (Februar 2026)
  • CHF 4,2 Millionen durchschnittliche Kosten eines KI-bezogenen Datenlecks (IBM Cost of a Data Breach Report, 2025)
  • 67 Prozent der Schweizer KMU nutzen KI-Tools ohne Sicherheitsrichtlinien (gfs-zürich, 2025)
  • 35 Millionen Euro maximale Strafe unter dem EU AI Act für Nichteinhaltung der Sicherheitsanforderungen

Was KI Red Teaming kostet

KI Red Teaming ist eine spezialisierte Dienstleistung, deren Kosten je nach Umfang und Komplexität variieren:

LeistungPreisspanne (CHF)Dauer
KI-Konfigurationsreview8’000 – 20’0003–5 Tage
KI-Penetrationstest (einzelnes System)15’000 – 40’0005–10 Tage
Umfassendes KI Red Teaming40’000 – 80’00010–20 Tage

Eine detaillierte Kostenübersicht finden Sie in unserem Artikel Was kostet ein KI-Security-Audit in der Schweiz?.

Im Vergleich zu den potenziellen Kosten eines KI-Sicherheitsvorfalls — der McKinsey-Vorfall wird auf einen Schaden im dreistelligen Millionenbereich geschätzt — ist die Investition in KI Red Teaming marginal.

KI Red Teaming Anbieter in der Schweiz

Der Markt für KI Red Teaming ist noch jung, aber es gibt spezialisierte Anbieter, die Schweizer Unternehmen bei der Prüfung ihrer KI-Systeme unterstützen:

  • RedTeam Partners bietet spezialisiertes KI Red Teaming an, das OWASP Top 10 for LLM Applications, MITRE ATLAS und EU AI Act Compliance abdeckt. Als Schweizer Anbieter (redteampartners.ch) versteht das Team die lokalen regulatorischen Anforderungen und die spezifischen Bedürfnisse von KMU.
  • Grosse internationale Beratungsfirmen bieten KI-Sicherheitsberatung an, allerdings oft zu deutlich höheren Preisen und mit weniger Fokus auf die Schweizer KMU-Landschaft.

Handlungsempfehlungen für Schweizer Unternehmen

Sofortmassnahmen (diese Woche)

  1. Inventar erstellen: Dokumentieren Sie alle KI-Systeme, die in Ihrem Unternehmen eingesetzt werden — inklusive Shadow AI
  2. Berechtigungen prüfen: Überprüfen Sie, auf welche Daten und Systeme Ihre KI-Tools Zugriff haben
  3. Systemprompts sichern: Stellen Sie sicher, dass keine sensitiven Informationen in Systemprompts stehen

Kurzfristige Massnahmen (diesen Monat)

  1. KI-Richtlinie einführen: Erstellen Sie klare Richtlinien für die KI-Nutzung im Unternehmen
  2. Erste Risikoanalyse: Bewerten Sie die KI-spezifischen Risiken Ihrer Systeme anhand des OWASP Top 10 for LLM
  3. Mitarbeitende sensibilisieren: Schulen Sie Mitarbeitende zu den Risiken von KI-Tools

Strategische Massnahmen (dieses Quartal)

  1. KI Red Teaming durchführen: Lassen Sie Ihre KI-Systeme professionell testen
  2. EU AI Act Compliance prüfen: Klären Sie, ob Ihre KI-Systeme unter den EU AI Act fallen
  3. Kontinuierliches Monitoring: Implementieren Sie Überwachung für KI-spezifische Anomalien

Weiterführende Ressourcen

Fazit: KI Red Teaming ist keine Option — es ist eine Notwendigkeit

Der McKinsey-Lilli-Vorfall hat gezeigt, was die KI-Sicherheitsgemeinschaft seit Jahren warnt: KI-Systeme haben eine fundamental andere Angriffsfläche als traditionelle Software. Sie reagieren auf natürliche Sprache, haben oft übermässige Berechtigungen, und ihre Schwachstellen sind für klassische Sicherheitstools unsichtbar.

Für Schweizer Unternehmen, die KI-Systeme einsetzen oder einsetzen wollen, ist KI Red Teaming die einzige Methode, die diese spezifischen Schwachstellen systematisch aufdeckt. Mit der Pflicht zum adversarialen Testing unter dem EU AI Act ab August 2026 wird KI Red Teaming zudem zur regulatorischen Anforderung.

Die Frage ist nicht, ob Ihr Unternehmen KI Red Teaming braucht — sondern wann Sie damit beginnen. Die Erfahrung zeigt: besser vor dem Vorfall als danach.