KI-Systeme sind keine gewöhnliche Software — und sie können nicht mit gewöhnlichen Methoden getestet werden. Am 28. Februar 2026 bewies der McKinsey-Lilli-Vorfall auf dramatische Weise, was passiert, wenn KI-Sicherheit vernachlässigt wird: 46,5 Millionen interne Nachrichten wurden in unter zwei Stunden exfiltriert, weil ein KI-Assistent mit viel zu weitreichenden Berechtigungen ausgestattet war. Kein Vulnerability Scanner hatte das Problem erkannt. Kein traditioneller Penetrationstest hatte es getestet. Es brauchte einen Angreifer — oder hätte einen KI Red Teamer gebraucht — um diese Schwachstelle aufzudecken.
Für Schweizer Unternehmen, die KI-Systeme einsetzen oder planen, ist die Botschaft eindeutig: Traditionelle Sicherheitstests reichen nicht aus. KI-Systeme erfordern KI-spezifische Sicherheitsprüfungen — und das nennt sich KI Red Teaming.
Was ist KI Red Teaming?
KI Red Teaming ist die systematische, adversariale Prüfung von KI-Systemen auf Schwachstellen, Fehlverhalten und Sicherheitslücken. Anders als bei einem klassischen Penetrationstest geht es nicht um die Überprüfung von Netzwerken, Firewalls oder Webapplikationen, sondern um die spezifischen Risiken, die entstehen, wenn ein System auf maschinellem Lernen basiert — insbesondere grosse Sprachmodelle (Large Language Models, LLMs).
Ein KI Red Team simuliert reale Angriffe gegen KI-Systeme und versucht dabei:
- Prompt Injection: Das Modell dazu zu bringen, seine Systemprompts preiszugeben, Sicherheitsgrenzen zu umgehen oder unbeabsichtigte Aktionen auszuführen
- Datenexfiltration: Sensible Trainings- oder Kontextdaten über das Modell zu extrahieren
- Jailbreaking: Sicherheitsrichtlinien zu umgehen und das Modell zu gefährlichem oder unethischem Output zu bewegen
- Tool Abuse: KI-Agenten mit Tool-Zugriff dazu zu missbrauchen, unerlaubte Aktionen in verbundenen Systemen durchzuführen
- Privilege Escalation: Über den KI-Zugang erweiterte Berechtigungen in der Unternehmensinfrastruktur zu erlangen
«KI Red Teaming ist keine Luxusübung für Technologiekonzerne — es ist eine betriebliche Notwendigkeit für jedes Unternehmen, das KI-Systeme mit Zugang zu internen Daten oder Systemen einsetzt.»
— OWASP Foundation, AI Security Guidelines 2026
Der McKinsey-Lilli-Vorfall: Eine Fallstudie
Am 28. Februar 2026 wurde öffentlich bekannt, dass McKinseys interner KI-Assistent «Lilli» eine kritische Sicherheitslücke aufwies. Lilli war als unternehmensweiter KI-Assistent konzipiert, der Beratern bei Recherchen, Analysen und dem Zugriff auf interne Wissensdatenbanken helfen sollte. Das System hatte Zugriff auf interne Kommunikationskanäle, Projektdaten und Kundendokumente.
Was geschah
Ein Sicherheitsforscher entdeckte, dass Lillis Systemprompt über eine einfache Prompt-Injection-Technik ausgelesen werden konnte. Schlimmer noch: Der KI-Assistent hatte weitreichende Leseberechtigungen auf interne Systeme — und diese Berechtigungen konnten über gezielte Prompts missbraucht werden.
Das Ergebnis:
- 46,5 Millionen interne Nachrichten waren potenziell exponiert
- Unter 2 Stunden dauerte die Demonstration des Angriffs
- Keine Erkennung durch bestehende Sicherheitssysteme
- Systemprompt mit Schreibzugriff auf interne Systeme war auslesbar
Warum traditionelle Sicherheitstests versagten
McKinsey verfügte über ein ausgereiftes Cybersicherheitsprogramm mit regelmässigen Penetrationstests, Vulnerability Scanning und einem professionellen Security Operations Center (SOC). Keine dieser Massnahmen erkannte die Schwachstelle, weil:
- Penetrationstests die Webapplikation und API-Endpunkte auf klassische Schwachstellen (SQL Injection, XSS, CSRF) prüften — nicht auf Prompt Injection oder LLM-spezifische Angriffsvektoren
- Vulnerability Scanner nach bekannten CVEs in der Infrastruktur suchten — nicht nach logischen Schwachstellen in KI-Systemen
- SOC-Monitoring auf Netzwerkanomalien und bekannte Angriffsmuster trainiert war — aber KI-spezifischer Missbrauch innerhalb «normaler» API-Aufrufe stattfand
- Zugriffskontrollen nicht für KI-spezifische Angriffsvektoren konzipiert waren — der KI-Assistent hatte seine Berechtigungen «legitim» erhalten
Dieser Vorfall illustriert ein fundamentales Problem: Traditionelle Sicherheitstests und KI-Sicherheit operieren in unterschiedlichen Dimensionen. Die eine ergänzt die andere, ersetzt sie aber nicht.
Warum traditionelle Penetrationstests KI-Schwachstellen übersehen
Der OWASP-Vergleich macht es deutlich
Die OWASP Foundation unterhält zwei separate Top-10-Listen, die die fundamentale Verschiedenheit der Bedrohungslandschaften illustrieren:
OWASP Top 10 Web Application Security Risks (traditionell):
- Broken Access Control
- Cryptographic Failures
- Injection (SQL, XSS)
- Insecure Design
- Security Misconfiguration
- Vulnerable and Outdated Components
- Identification and Authentication Failures
- Software and Data Integrity Failures
- Security Logging and Monitoring Failures
- Server-Side Request Forgery
OWASP Top 10 for LLM Applications (2025):
- Prompt Injection
- Insecure Output Handling
- Training Data Poisoning
- Model Denial of Service
- Supply Chain Vulnerabilities
- Sensitive Information Disclosure
- Insecure Plugin Design
- Excessive Agency
- Overreliance
- Model Theft
Die Listen überschneiden sich kaum. Ein Penetrationstester, der auf SQL Injection und XSS prüft, findet keine Prompt Injection. Ein Scanner, der nach veralteten Softwareversionen sucht, erkennt kein «Excessive Agency»-Problem, bei dem ein KI-Assistent zu viele Berechtigungen hat.
Spezifische Lücken traditioneller Tests
| Bereich | Traditioneller Pentest | KI Red Teaming |
|---|---|---|
| Prompt Injection | Nicht im Scope | Kernkompetenz |
| Datenexfiltration via LLM | Nicht erkennbar | Systematisch getestet |
| Jailbreak-Resistenz | Nicht getestet | Hunderte Techniken |
| Tool/Agent Abuse | Nicht relevant | Kritisch |
| Systemprompt-Leakage | Nicht bekannt | Standard-Testfall |
| Model Poisoning | Nicht testbar | Spezialisierte Methodik |
| Halluzination mit Sicherheitsrelevanz | Nicht erkannt | Gezielt provoziert |
| Excessive Agency | Nicht im Framework | Zentrale Prüfung |
«Prompt Injection ist das SQL Injection der KI-Welt — aber kein SQL-Injection-Scanner findet es.»
— Simon Willison, KI-Sicherheitsforscher
Welche Schweizer Unternehmen brauchen KI Red Teaming?
KI Red Teaming ist nicht nur für Technologieunternehmen relevant. Jedes Unternehmen, das KI-Systeme einsetzt, die eine oder mehrere der folgenden Kriterien erfüllen, sollte KI Red Teaming in Betracht ziehen:
KI-Systeme mit Datenzugang
Wenn Ihr KI-System Zugriff auf interne Daten hat — sei es ein KI-Assistent, der auf CRM-Daten zugreift, ein Chatbot, der Kundendaten verarbeitet, oder ein KI-Tool, das interne Dokumente analysiert — besteht ein Exfiltrationsrisiko, das nur durch adversariales Testing identifiziert werden kann.
KI-Systeme mit Tool-Zugriff
KI-Agenten, die E-Mails senden, Kalender verwalten, Datenbanken abfragen oder externe APIs aufrufen können, haben eine Angriffsfläche, die weit über das Modell selbst hinausgeht. Der McKinsey-Vorfall zeigt, was passiert, wenn ein KI-Agent zu viele Berechtigungen erhält.
Kundenseitige KI-Systeme
Chatbots, virtuelle Assistenten und andere kundenseitige KI-Systeme sind direkt von externen Nutzern ansprechbar — und damit direkt angreifbar. Jeder Nutzer kann versuchen, das System zu manipulieren.
KI in regulierten Branchen
Unternehmen in regulierten Branchen — Finanzdienstleistungen, Gesundheitswesen, Versicherungen — unterliegen erhöhten Sorgfaltspflichten. Der EU AI Act verlangt ab August 2026 explizit «adversarial testing» für Hochrisiko-KI-Systeme.
Shadow AI im Unternehmen
Laut einer Studie von gfs-zürich (2025) nutzen 67 Prozent der Schweizer KMU KI-Tools, aber nur 18 Prozent haben Richtlinien dafür. Shadow AI — die unkontrollierte Nutzung von KI-Tools durch Mitarbeitende — ist eine Angriffsfläche, die viele Unternehmen gar nicht kennen. Mehr dazu in unserem Artikel über Shadow AI Risiken.
Der EU AI Act und die Pflicht zum Adversarial Testing
Der EU AI Act, der am 2. August 2026 vollständig in Kraft tritt, enthält eine explizite Anforderung für adversariales Testing (Red Teaming) von KI-Systemen. Artikel 9 der Verordnung verlangt für Hochrisiko-KI-Systeme:
- Systematische Risikoanalyse unter Berücksichtigung adversarialer Angriffe
- Robustheitstests gegen gezielte Manipulation
- Dokumentation der durchgeführten Sicherheitsprüfungen
- Regelmässige Wiederholung der Tests über den gesamten Lebenszyklus
Für Schweizer Unternehmen, die KI-Produkte oder -Dienstleistungen in der EU anbieten oder EU-Kunden bedienen, ist diese Anforderung verbindlich. Strafen bei Nichteinhaltung können bis zu 35 Millionen Euro oder 7 Prozent des weltweiten Jahresumsatzes betragen.
«Adversarial Testing ist keine optionale Best Practice mehr — es ist eine regulatorische Pflicht. Unternehmen, die KI-Systeme ohne Red Teaming in den Markt bringen, handeln nicht nur fahrlässig, sondern potenziell rechtswidrig.»
— EU-Kommission, Erläuterungen zum AI Act, 2025
Lesen Sie unsere vollständige Analyse der Auswirkungen des EU AI Act auf Schweizer Unternehmen.
Wie funktioniert KI Red Teaming in der Praxis?
Ein professionelles KI Red Teaming Engagement folgt einem strukturierten Prozess, der sich von traditionellen Penetrationstests deutlich unterscheidet.
Phase 1: Aufklärung und Scoping (1-2 Tage)
Das Red Team analysiert die KI-Architektur: Welches Modell wird eingesetzt? Welche Systemprompts sind konfiguriert? Welche Tools und APIs hat der KI-Agent zur Verfügung? Welche Datenquellen sind angebunden? Welche Berechtigungen hat das System?
Phase 2: Threat Modelling (1-2 Tage)
Basierend auf der Architekturanalyse werden spezifische Bedrohungsszenarien entwickelt. Das Red Team erstellt ein Angriffsmodell, das die wahrscheinlichsten und gefährlichsten Angriffspfade identifiziert — basierend auf dem OWASP Top 10 for LLM Applications und dem MITRE ATLAS Framework.
Phase 3: Adversariales Testing (3-10 Tage)
Das Kernstück des Engagements. Das Red Team führt systematische Angriffe gegen das KI-System durch:
- Prompt Injection Kampagnen: Hunderte von Injection-Techniken werden getestet — direkte, indirekte, kontextuelle, multimodale
- Jailbreak-Versuche: Systematische Umgehung von Sicherheitsrichtlinien und Content-Filtern
- Datenexfiltration: Versuch, sensitive Daten aus dem Kontext, den Trainingsdaten oder verbundenen Systemen zu extrahieren
- Tool/Agent Abuse: Missbrauch von Tool-Aufrufen und API-Zugriffen für unbeabsichtigte Aktionen
- Privilege Escalation: Versuch, über den KI-Zugang erweiterte Berechtigungen zu erlangen
- Denial of Service: Tests auf Ressourcenverbrauch und Modell-spezifische DoS-Vektoren
Phase 4: Dokumentation und Reporting (2-3 Tage)
Das Red Team dokumentiert alle Findings mit Reproduktionsschritten, Risikobeurteilung (CVSS-Scoring adaptiert für KI), und konkreten Handlungsempfehlungen. Der Bericht enthält:
- Executive Summary für die Geschäftsleitung
- Technische Details für das Entwicklungsteam
- Priorisierte Massnahmenempfehlungen
- Compliance-Mapping (EU AI Act, nDSG)
Phase 5: Remediation Support (optional)
Erfahrene KI-Red-Teaming-Anbieter bieten Unterstützung bei der Behebung der gefundenen Schwachstellen — von der Anpassung der Systemprompts über die Implementierung von Output-Filtern bis zur Neugestaltung der Berechtigungsarchitektur.
KI-Schwachstellen, die nur Red Teaming findet
Excessive Agency (McKinsey-Typ)
Ein KI-Assistent hat Zugriff auf mehr Systeme und Daten, als für seine Funktion notwendig ist. Automatisierte Scanner prüfen nicht, ob ein KI-System «zu viel kann» — das ist eine Designentscheidung, die nur durch adversariales Testing hinterfragt wird.
Kontextuelle Prompt Injection
Ein Angreifer platziert Instruktionen in Dokumenten, E-Mails oder Webseiten, die der KI-Assistent verarbeitet. Wenn der Assistent diese Instruktionen als Befehle interpretiert, kann der Angreifer den Assistenten fernsteuern. Scanner suchen nach SQL-Injection-Patterns — nicht nach versteckten Anweisungen in natürlicher Sprache.
Cross-Plugin/Tool-Exploitation
In Systemen, wo KI-Agenten mehrere Tools nutzen (E-Mail, Kalender, Dateisystem, Web), können Angreifer Tool-Aufrufe verketten, um Aktionen durchzuführen, die einzeln harmlos, in Kombination aber gefährlich sind. Traditionelle Tests prüfen Tools isoliert.
Systemprompt-basierte Schwachstellen
Viele KI-Implementierungen enthalten sensitive Informationen im Systemprompt — API-Schlüssel, Datenbankzugangsdaten, interne URLs, Geschäftslogik. Ein klassischer Pentest sucht nach solchen Credentials in Konfigurationsdateien — nicht im Systemprompt eines LLM.
Statistiken: Der aktuelle Stand der KI-Sicherheit
Die Zahlen verdeutlichen die Dringlichkeit:
- 73 Prozent aller produktiven KI-Systeme sind anfällig für Prompt Injection (OWASP AI Security Report, 2025)
- 82 Prozent der Unternehmen mit KI-Systemen haben noch kein KI-spezifisches Security-Assessment durchgeführt (Gartner, 2025)
- 46,5 Millionen Nachrichten waren im McKinsey-Lilli-Vorfall exponiert (Februar 2026)
- CHF 4,2 Millionen durchschnittliche Kosten eines KI-bezogenen Datenlecks (IBM Cost of a Data Breach Report, 2025)
- 67 Prozent der Schweizer KMU nutzen KI-Tools ohne Sicherheitsrichtlinien (gfs-zürich, 2025)
- 35 Millionen Euro maximale Strafe unter dem EU AI Act für Nichteinhaltung der Sicherheitsanforderungen
Was KI Red Teaming kostet
KI Red Teaming ist eine spezialisierte Dienstleistung, deren Kosten je nach Umfang und Komplexität variieren:
| Leistung | Preisspanne (CHF) | Dauer |
|---|---|---|
| KI-Konfigurationsreview | 8’000 – 20’000 | 3–5 Tage |
| KI-Penetrationstest (einzelnes System) | 15’000 – 40’000 | 5–10 Tage |
| Umfassendes KI Red Teaming | 40’000 – 80’000 | 10–20 Tage |
Eine detaillierte Kostenübersicht finden Sie in unserem Artikel Was kostet ein KI-Security-Audit in der Schweiz?.
Im Vergleich zu den potenziellen Kosten eines KI-Sicherheitsvorfalls — der McKinsey-Vorfall wird auf einen Schaden im dreistelligen Millionenbereich geschätzt — ist die Investition in KI Red Teaming marginal.
KI Red Teaming Anbieter in der Schweiz
Der Markt für KI Red Teaming ist noch jung, aber es gibt spezialisierte Anbieter, die Schweizer Unternehmen bei der Prüfung ihrer KI-Systeme unterstützen:
- RedTeam Partners bietet spezialisiertes KI Red Teaming an, das OWASP Top 10 for LLM Applications, MITRE ATLAS und EU AI Act Compliance abdeckt. Als Schweizer Anbieter (redteampartners.ch) versteht das Team die lokalen regulatorischen Anforderungen und die spezifischen Bedürfnisse von KMU.
- Grosse internationale Beratungsfirmen bieten KI-Sicherheitsberatung an, allerdings oft zu deutlich höheren Preisen und mit weniger Fokus auf die Schweizer KMU-Landschaft.
Handlungsempfehlungen für Schweizer Unternehmen
Sofortmassnahmen (diese Woche)
- Inventar erstellen: Dokumentieren Sie alle KI-Systeme, die in Ihrem Unternehmen eingesetzt werden — inklusive Shadow AI
- Berechtigungen prüfen: Überprüfen Sie, auf welche Daten und Systeme Ihre KI-Tools Zugriff haben
- Systemprompts sichern: Stellen Sie sicher, dass keine sensitiven Informationen in Systemprompts stehen
Kurzfristige Massnahmen (diesen Monat)
- KI-Richtlinie einführen: Erstellen Sie klare Richtlinien für die KI-Nutzung im Unternehmen
- Erste Risikoanalyse: Bewerten Sie die KI-spezifischen Risiken Ihrer Systeme anhand des OWASP Top 10 for LLM
- Mitarbeitende sensibilisieren: Schulen Sie Mitarbeitende zu den Risiken von KI-Tools
Strategische Massnahmen (dieses Quartal)
- KI Red Teaming durchführen: Lassen Sie Ihre KI-Systeme professionell testen
- EU AI Act Compliance prüfen: Klären Sie, ob Ihre KI-Systeme unter den EU AI Act fallen
- Kontinuierliches Monitoring: Implementieren Sie Überwachung für KI-spezifische Anomalien
Weiterführende Ressourcen
- KI-basierte Cyberangriffe: Die neue Bedrohung — Überblick über KI-gestützte Angriffsmethoden
- Prompt Injection: Die grösste KI-Schwachstelle — Technische Analyse von Prompt-Injection-Angriffen
- Claude Code & Copilot: Neue Angriffsfläche — Risiken von KI-Coding-Tools
- Shadow AI Risiken für KMU — Wenn Mitarbeitende KI ohne Genehmigung nutzen
- KI Red Teaming vs. Penetrationstest — Vergleich der Testmethoden
- KI-Sicherheit für KMU: Der Komplettleitfaden — Praxis-Leitfaden zu allen Aspekten der KI-Sicherheit
- EU AI Act Auswirkungen auf die Schweiz — Regulatorische Anforderungen
Fazit: KI Red Teaming ist keine Option — es ist eine Notwendigkeit
Der McKinsey-Lilli-Vorfall hat gezeigt, was die KI-Sicherheitsgemeinschaft seit Jahren warnt: KI-Systeme haben eine fundamental andere Angriffsfläche als traditionelle Software. Sie reagieren auf natürliche Sprache, haben oft übermässige Berechtigungen, und ihre Schwachstellen sind für klassische Sicherheitstools unsichtbar.
Für Schweizer Unternehmen, die KI-Systeme einsetzen oder einsetzen wollen, ist KI Red Teaming die einzige Methode, die diese spezifischen Schwachstellen systematisch aufdeckt. Mit der Pflicht zum adversarialen Testing unter dem EU AI Act ab August 2026 wird KI Red Teaming zudem zur regulatorischen Anforderung.
Die Frage ist nicht, ob Ihr Unternehmen KI Red Teaming braucht — sondern wann Sie damit beginnen. Die Erfahrung zeigt: besser vor dem Vorfall als danach.