Die Herausforderung
Ein Enterprise-KI-Team optimiert ein Kundenservice-LLM unter Verwendung von 18 Monaten Support-Ticketdaten. Der Datensatz enthält 240.000 JSON-Datensätze mit Kundennamen, E-Mail-Adressen, Kontonummern, Produktserialnummern und Freitexten, die PII enthalten. Das EU AI Act (Art. 10, wirksam August 2026) erfordert Datenschutz-Praktiken, die sicherstellen, dass Trainingsdaten für hochriskante KI-Anwendungen frei von unnötigen personenbezogenen Daten sind. Das Hochladen des Datensatzes auf einen Cloud-Anonymisierungsservice würde selbst eine GDPR-Verletzung erzeugen — die Daten müssen im EU-Rechenzentrum des Unternehmens bleiben.
Die Lösung
Das ML-Ingenieur-Team installiert anonym.plus auf einer Workstation innerhalb des EU-Rechenzentrums. Sie teilen den 240K-Datensatz in 120 JSONL-Dateien mit jeweils 2.000 Datensätzen auf (durchschnittlich 25 MB pro Datei). Mit dem Batch-Modus mit 5 parallelen Workern verarbeiten sie alle 120 Dateien über ungefähr 90 Minuten. Ein benutzerdefiniertes Preset verwendet: PERSON, EMAIL_ADDRESS, PHONE_NUMBER, IBAN_CODE, IP_ADDRESS, CREDIT_CARD und eine benutzerdefinierte Entität für Produktserialnummern (Regex: SN-[A-Z0-9]{10}). Der Replace-Operator stellt sicher, dass irreversible Anonymisierung erfolgt. Der Verarbeitungsverlauf wird als CSV für Art. 11 technische Dokumentation exportiert.
Die Ergebnisse
- 240.000 Datensätze anonymisiert — 6 PII-Kategorien + 1 benutzerdefinierte Entität in 90 Minuten verarbeitet
- Anonymisierter Datensatz verlässt GDPR-Umfang — für Training keine Rechtmäßigkeitsgrundlage erforderlich, keine Datensubjekt-Rechte gelten
- EU AI Act Art. 10 Datenschutz-Anforderung erfüllt — in technischer Datei dokumentiert
- Trainingsdaten verließen nie das EU-Rechenzentrum — vollständige Datenseitorientierung beibehalten
- Kein DPA mit Trainingsinfrastruktur-Anbieter erforderlich — nur anonymisierte Daten
- Verarbeitungsverlauf-CSV stellt Audit-Trail für Art. 11 technische Dokumentation bereit
Unterstützte Trainingsdatenformate
- JSON / JSONL — Instruction-Tuning-Datensätze, Chat-Gespräche, Annotationsdateien (30 MB pro Datei)
- CSV — Tabellarische Trainingsdaten, beschriftete Beispiele, Evaluationssätze (30 MB)
- TXT — Pretraining-Korpora, rohes Dokumentsammlungen (50 MB)
- XLSX — Manuell annotierte Datensätze, Bewertungsblätter (20 MB / 100K Zeilen)
- PDF / DOCX — Dokumentklassifikations-Korpora, Wissensdatenbank-Dokumente
Für Datensätze, die Dateigrößen-Limits überschreiten, teilen Sie in Chunks auf und verarbeiten Sie mit Batch-Modus. Bis zu 20 Dateien gleichzeitig mit dem Pro-Plan verarbeitet.
EU AI Act Art. 10 Dokumentation
Nach der Anonymisierung von Trainingsdaten dokumentieren Sie Folgendes in der technischen Datei des KI-Systems (Art. 11):
- Datenschutz-Praxis: PII aus Trainingsdaten entfernt mit anonym.plus [Version], Replace-Operator, GDPR-Konformitätspreset
- Erkannte und entfernte Entity-Typen: [Liste aus Verarbeitungsverlauf-Export]
- Verarbeitungsdatum und Datensatz-Version: [Zeitstempel aus Verlauf]
- Restrisiko-Bewertung: Replace-Operator erzeugt echte Anonymisierung (GDPR Recital 26); Re-Identifikation nicht möglich aus Ausgabedaten
- Datenseitorientierung: Verarbeitung auf EU-Infrastruktur lokal durchgeführt; keine Datenübertragung außerhalb des Rechenzentrums
Lesen Sie den vollständigen EU AI Act-Leitfaden. EU AI Act Art. 10-Konformität →
Häufig gestellte Fragen
Wie entferne ich PII aus AI-Trainingsdaten für GDPR und EU AI Act-Konformität?
Laden Sie Trainingsdateien (JSON, CSV, TXT, XLSX) in anonym.plus. Wählen Sie das GDPR-Konformitätspreset oder konfigurieren Sie Entity-Typen. Wählen Sie Replace-Operator für permanente Anonymisierung. Verarbeiten Sie im Batch-Modus für große Datensätze. Die anonymisierte Ausgabe verlässt GDPR-Umfang und erfüllt die EU AI Act Art. 10 Datenschutz-Anforderungen.
Verarbeitet anonym.plus JSONL-Format Trainingsdatensätze?
Ja. JSON- und JSONL-Dateien (30 MB) werden unterstützt. anonym.plus analysiert Textfelder und ersetzt erkannte PII durch Bezeichnungen. Struktur wird beibehalten — die JSONL-Datei bleibt nach Anonymisierung valid für Training-Pipelines.