Anwendungsfall: AI/ML-Trainingsdaten

Anonymisieren Sie Trainingsdatensätze für EU AI Act Art. 10 und GDPR-Konformität — vollständig offline.

Die Herausforderung

Herausforderung

Ein Enterprise-KI-Team optimiert ein Kundenservice-LLM unter Verwendung von 18 Monaten Support-Ticketdaten. Der Datensatz enthält 240.000 JSON-Datensätze mit Kundennamen, E-Mail-Adressen, Kontonummern, Produktserialnummern und Freitexten, die PII enthalten. Das EU AI Act (Art. 10, wirksam August 2026) erfordert Datenschutz-Praktiken, die sicherstellen, dass Trainingsdaten für hochriskante KI-Anwendungen frei von unnötigen personenbezogenen Daten sind. Das Hochladen des Datensatzes auf einen Cloud-Anonymisierungsservice würde selbst eine GDPR-Verletzung erzeugen — die Daten müssen im EU-Rechenzentrum des Unternehmens bleiben.

Die Lösung

Lösung

Das ML-Ingenieur-Team installiert anonym.plus auf einer Workstation innerhalb des EU-Rechenzentrums. Sie teilen den 240K-Datensatz in 120 JSONL-Dateien mit jeweils 2.000 Datensätzen auf (durchschnittlich 25 MB pro Datei). Mit dem Batch-Modus mit 5 parallelen Workern verarbeiten sie alle 120 Dateien über ungefähr 90 Minuten. Ein benutzerdefiniertes Preset verwendet: PERSON, EMAIL_ADDRESS, PHONE_NUMBER, IBAN_CODE, IP_ADDRESS, CREDIT_CARD und eine benutzerdefinierte Entität für Produktserialnummern (Regex: SN-[A-Z0-9]{10}). Der Replace-Operator stellt sicher, dass irreversible Anonymisierung erfolgt. Der Verarbeitungsverlauf wird als CSV für Art. 11 technische Dokumentation exportiert.

Die Ergebnisse

Ergebnis
  • 240.000 Datensätze anonymisiert — 6 PII-Kategorien + 1 benutzerdefinierte Entität in 90 Minuten verarbeitet
  • Anonymisierter Datensatz verlässt GDPR-Umfang — für Training keine Rechtmäßigkeitsgrundlage erforderlich, keine Datensubjekt-Rechte gelten
  • EU AI Act Art. 10 Datenschutz-Anforderung erfüllt — in technischer Datei dokumentiert
  • Trainingsdaten verließen nie das EU-Rechenzentrum — vollständige Datenseitorientierung beibehalten
  • Kein DPA mit Trainingsinfrastruktur-Anbieter erforderlich — nur anonymisierte Daten
  • Verarbeitungsverlauf-CSV stellt Audit-Trail für Art. 11 technische Dokumentation bereit

Unterstützte Trainingsdatenformate

Für Datensätze, die Dateigrößen-Limits überschreiten, teilen Sie in Chunks auf und verarbeiten Sie mit Batch-Modus. Bis zu 20 Dateien gleichzeitig mit dem Pro-Plan verarbeitet.

EU AI Act Art. 10 Dokumentation

Nach der Anonymisierung von Trainingsdaten dokumentieren Sie Folgendes in der technischen Datei des KI-Systems (Art. 11):

Lesen Sie den vollständigen EU AI Act-Leitfaden. EU AI Act Art. 10-Konformität →

Häufig gestellte Fragen

Wie entferne ich PII aus AI-Trainingsdaten für GDPR und EU AI Act-Konformität?

Laden Sie Trainingsdateien (JSON, CSV, TXT, XLSX) in anonym.plus. Wählen Sie das GDPR-Konformitätspreset oder konfigurieren Sie Entity-Typen. Wählen Sie Replace-Operator für permanente Anonymisierung. Verarbeiten Sie im Batch-Modus für große Datensätze. Die anonymisierte Ausgabe verlässt GDPR-Umfang und erfüllt die EU AI Act Art. 10 Datenschutz-Anforderungen.

Verarbeitet anonym.plus JSONL-Format Trainingsdatensätze?

Ja. JSON- und JSONL-Dateien (30 MB) werden unterstützt. anonym.plus analysiert Textfelder und ersetzt erkannte PII durch Bezeichnungen. Struktur wird beibehalten — die JSONL-Datei bleibt nach Anonymisierung valid für Training-Pipelines.