PDF, DOCX und XLSX-Dateien anonymisieren

Unterstützte Dokumentformate

anonym.plus verarbeitet sieben Dokumentformate, jede mit spezifischen Größenlimits und Strukturbewahrungsmerkmalen. Die App extrahiert lokal Text aus jedem Format, führt PII-Erkennung über die Presidio-Engine durch und erzeugt eine anonymisierte Ausgabe — alles ohne Netzwerk-Aufrufe.

Format	Max. Größe	Struktur bewahrt	Notizen
PDF	50 MB	Nur Text-Ebene	Text wird aus der PDF-Text-Ebene extrahiert. Gescannte PDFs erfordern OCR-Vorverarbeitung. Layout und Bilder bleiben unverändert.
DOCX	30 MB	Vollständige Formatierung	Absätze, Tabellen, Kopf- und Fußzeilen, Stile und Schriftarten bleiben erhalten. Nur der Textinhalt wird geändert.
XLSX	20 MB / 100K Zeilen	Zellstruktur	Zellenwerte, Blattnamen und Formeln bleiben erhalten. PII wird innerhalb des Zelltextes erkannt und ersetzt.
CSV	30 MB	Zeilen-/Spaltenstruktur	Die Trennzeichenerkennung erfolgt automatisch. Kopfzeilen und Datenzeilen bleiben erhalten.
JSON	30 MB	Vollständige Struktur	Objektschlüssel, Verschachtelung und Arrays bleiben erhalten. Nur String-Werte mit PII werden geändert.
XML	30 MB	Vollständige Struktur	Element-Hierarchie, Attribute und Namensräume bleiben erhalten. PII in Text-Knoten und Attributen wird erkannt.
TXT	50 MB	Plaintext	Zeilenumbrüche und Leerzeichen bleiben erhalten. Keine Formatierung zum Bewahren.

Wie Datei-Anonymisierung funktioniert

Unabhängig vom Dateiformat folgt anonym.plus einer konsistenten Pipeline für Datei-Anonymisierung:

Datei-Einnahme. Legen Sie eine Datei auf der Dropzone ab oder klicken Sie zum Durchsuchen. Die Datei wird vollständig auf Ihrem lokalen Gerät gelesen — nichts wird zu einem Server hochgeladen.
Text-Extraktion. Die App verwendet formatspezifische Parser, um Text-Inhalt zu extrahieren. Bei PDF bedeutet dies, die Text-Ebene zu lesen. Bei DOCX wird die XML-Struktur innerhalb des .docx-Pakets geparst. Bei XLSX werden Zellenwerte über alle Blätter gelesen.
PII-Erkennung. Der extrahierte Text wird von der lokalen Presidio-Engine kombiniert mit spaCy NER-Modellen analysiert. Die Engine identifiziert Entitäten basierend auf Ihrer ausgewählten Erkennungsvorgabe und Zuverlässigkeitsschwelle.
Entitäts-Überprüfung. Erkannte Entitäten werden mit farbcodierten Abzeichen angezeigt. Sie überprüfen jede Erkennung, schalten falsch positive Ergebnisse aus oder fügen verpasste Entitäten manuell hinzu.
Anonymisierung. Sie wählen einen Operator (Replace oder Encrypt) und klicken auf "Anonymisieren." Die Engine wendet den Operator auf jede aktivierte Entität innerhalb des extrahierten Texts an.
Ausgabe-Generierung. Der anonymisierte Text wird in das ursprüngliche Dateiformat zurückgeschrieben, wobei die Dokumentstruktur erhalten bleibt. Sie können die neue Datei speichern oder das Original ersetzen.

Diese Pipeline stellt sicher, dass Dokumentformatierung, Layout und nicht-Text-Elemente intakt bleiben, während alle erkannte PII gemäß Ihrem gewählten Operator verarbeitet wird.

Replace-Modus: Schritt für Schritt

Replace-Modus ersetzt dauerhaft jede erkannte PII-Entität mit einem typ-basierten Platzhalter. Dies ist ideal, wenn Sie Dokumente extern teilen oder permanente Kopien sanitieren müssen.

Legen Sie Ihre Datei auf der anonym.plus-Dropzone ab. Der Dateityp wird automatisch erkannt.
Wählen Sie eine Erkennungsvorgabe. Für die meisten Dokumenten-Workflows funktionieren "General PII Detection" oder "GDPR Compliance" gut.
Klicken Sie auf "Analyse starten." Die Text-Extraktion und PII-Erkennung werden lokal ausgeführt.
Überprüfen Sie die erkannten Entitäten in der Seitenleiste. Jede Entität zeigt ihren Typ (z. B. PERSON, EMAIL_ADDRESS, PHONE_NUMBER), den ursprünglichen Wert und einen Zuverlässigkeits-Score.
Setzen Sie den Operator für jeden Entitätstyp auf "Replace" oder setzen Sie Replace als globalen Standard.
Klicken Sie auf "Anonymisieren." Jeder PII-Wert wird durch einen Platzhalter wie <PERSON> oder <EMAIL_ADDRESS> ersetzt.
Wählen Sie Ihr Ausgabeformat: Gleich wie Eingabe, PDF, DOCX oder TXT.
Klicken Sie auf "Als neue Datei speichern", um das anonymisierte Dokument zu schreiben. Das Original bleibt unverändert.

Encrypt-Modus: Schritt für Schritt

Encrypt-Modus ersetzt jede PII-Entität durch ein AES-256-GCM-verschlüsseltes Token. Die ursprünglichen Werte können später mit der Deanonymize-Funktion mit dem korrekten Verschlüsselungsschlüssel wiederhergestellt werden.

Legen Sie Ihre Datei auf die Dropzone.
Wählen Sie eine Erkennungsvorgabe und klicken Sie auf "Analyse starten."
Überprüfen Sie erkannte Entitäten.
Setzen Sie den Operator auf "Encrypt" und wählen Sie einen Verschlüsselungsschlüssel aus Ihrem Tresor. Wenn Sie keinen Schlüssel haben, erstellen Sie einen in den Einstellungen — der Schlüssel wird lokal generiert und in Ihrem verschlüsselten Tresor gespeichert.
Klicken Sie auf "Anonymisieren." Jede PII-Entität wird mit AES-256-GCM mit einem zufälligen Nonce pro Entität verschlüsselt.
Speichern Sie das verschlüsselte Dokument. Teilen Sie es sicher — Empfänger können die PII ohne Ihren Verschlüsselungsschlüssel nicht lesen.
Wenn Sie die ursprünglichen Werte wiederherstellen müssen, verwenden Sie die Deanonymize-Funktion: Legen Sie die verschlüsselte Datei ab, und die App ordnet verschlüsselte Tokens Ihrer Verlauf zu und lädt automatisch den korrekten Schlüssel.

Formatspezifische Überlegungen

PDF

PDF-Anonymisierung arbeitet auf der Text-Ebene des Dokuments. Die App liest Text-Inhalt, Positionen und Schriftarten aus dem PDF, wendet Anonymisierung an und schreibt den geänderten Text zurück. Bilder, Vektorgrafiken und andere nicht-Text-Elemente werden nicht geändert. Wenn Ihr PDF von einem Scanner erstellt wurde (nur Bild-PDF), kann die Text-Ebene leer sein — verwenden Sie in diesem Fall die Bild-Anonymisierungs-Funktion, um einzelne Seiten als Bilder mit OCR zu verarbeiten.

Für beste Ergebnisse mit PDFs stellen Sie sicher, dass das Dokument eine ordnungsgemäße Text-Ebene hat (die meisten PDFs, die aus Word, Excel oder Web-Browsern erstellt werden). Die maximale unterstützte Dateigröße beträgt 50 MB.

DOCX

DOCX-Dateien sind intern XML-basierte Pakete. anonym.plus parst die Dokumentstruktur, verarbeitet Text innerhalb von Absätzen, Tabellen, Kopf- und Fußzeilen und schreibt den anonymisierten Inhalt zurück, während alle Formatierungen erhalten bleiben: Schriftarten, Stile, Farben, Aufzählungspunkte, Nummerierung und Seitenlayout. Eingebettete Bilder und Diagramme werden nicht geändert.

Tracked Changes und Kommentare, die PII enthalten, werden auch verarbeitet. Die maximale Dateigröße beträgt 30 MB.

XLSX

Tabellen-Anonymisierung verarbeitet jede Zelle einzeln über alle Blätter. Zellen-Formatierung (Zahlenformate, Farben, Grenzen), Formeln und Blatt-Struktur bleiben erhalten. PII wird innerhalb von Zellenwert-Text erkannt — numerische Zellen, in Datumsformat formatierte Daten und Formel-Zellen werden basierend auf ihrem angezeigten Wert analysiert.

Das Limit ist 20 MB oder 100.000 Zeilen, je nachdem, was zuerst erreicht wird. Bei sehr großen Tabellenkalkulationen erwägen Sie, in kleinere Dateien zu teilen oder Batch-Verarbeitung zu verwenden.

CSV, JSON und XML

Diese strukturierten Datenformate werden nativ geparst. CSV-Trennzeichenerkennung erfolgt automatisch (Komma, Semikolon, Tab oder Pipe). JSON-Objekte und Arrays behalten ihre Struktur — nur String-Werte mit PII werden geändert. XML bewahrt Element-Hierarchie, Attribute und Namensräume. In allen drei Formaten werden nur die Datenwerte anonymisiert, während die strukturellen Elemente intakt bleiben.

TXT

Plaintext-Dateien sind das einfachste Format zu anonymisieren. Der gesamte Datei-Inhalt wird als Text behandelt, mit Zeilenumbrüchen und Leerzeichen bewahrt. TXT unterstützt die größte Dateigröße mit 50 MB. Die Ausgabe ist immer TXT-Format.

Bereit, es selbst zu versuchen? Sehen Sie es in Aktion →

Bekannte Einschränkungen

Die Dateianonymisierung hat formatspezifische Einschränkungen und Überlegungen:

Eingebettete Objekte: Bilder, Diagramme und eingebettete Objekte in PDF/DOCX werden nicht auf Text analysiert. Separat extrahieren oder anonymisieren.
Metadatenerhaltung: Dateimetadaten (Autor, Erstellungsdatum) werden nicht automatisch entfernt. Verwenden Sie spezielle Metadaten-Entfernungstools, falls erforderlich.
OCR nicht enthalten: Gescannte PDFs oder bildbasierte Dokumente erfordern OCR-Vorverarbeitung, bevor die Textextraktion zuverlässig funktioniert.