Wie Bild-Anonymisierung funktioniert
Bild-Anonymisierung in anonym.plus kombiniert Optische Zeichenerkennung (OCR) mit Named Entity Recognition (NER), um personenbezogene Informationen direkt in Bildern zu erkennen und zu redaktieren. Die Pipeline verarbeitet jedes Bild durch eine Reihe eng integrierter Phasen:
- Bild-Upload und EXIF-Korrektur. Wenn Sie ein Bild hochladen, liest die App seine EXIF-Orientierungs-Metadaten und dreht das Bild automatisch in die korrekte Ausrichtung. Fotos im Hochformat oder in ungewöhnlichen Winkeln werden vor der Text-Extraktion korrigiert.
- Tesseract OCR Text-Extraktion. Das korrigierte Bild wird an Tesseract OCR übergeben, das allen sichtbaren Text zusammen mit Zeichen-Ebenen-Begrenzungsrahmen extrahiert. Jedes erkannte Zeichen wird auf seine genauen Pixel-Koordinaten im Bild abgebildet. Tesseract unterstützt 38 OCR-Sprachen, und Sie wählen die primäre Sprache des Textes für optimale Genauigkeit.
- Presidio NER PII-Erkennung. Der extrahierte Text wird zur Presidio NER-Engine gesendet, die PII-Entitäten wie Personennamen, E-Mail-Adressen, Telefonnummern, Daten, Standorte, nationale IDs, Kreditkartennummern und mehr basierend auf Ihrer ausgewählten Erkennungsvorgabe identifiziert.
- Begrenzungsrahmen-Polsterung und Zusammenführung. Jede erkannte PII-Entität wird auf die Zeichen-Ebenen-Begrenzungsrahmen aus dem OCR-Schritt abgebildet. Begrenzungsrahmen werden um 4 Pixel auf jeder Seite gepolstert, um vollständige Abdeckung zu gewährleisten. Benachbarte Rahmen für mehrwörtige Entitäten (wie Vollnamen "John Smith") werden in eine einzelne zusammenhängende Region zusammengeführt.
- Redaktions-Kastenrendering. Farbige Rechtecke werden über jede erkannte PII-Region gezogen, die den ursprünglichen Text im Bild vollständig abdeckt. Sie können die Füllfarbe konfigurieren: schwarz, rot, grün, blau oder grau. Die Ausgabe ist immer ein PNG-Bild mit visuell redaktierter PII.
Die gesamte Pipeline wird lokal auf Ihrem Gerät ausgeführt. Keine Bilder werden zu einem Server hochgeladen. Das ursprüngliche Bild wird nie geändert — eine neue redaktierte Kopie wird erstellt.
Unterstützte Formate und Limits
anonym.plus unterstützt vier Bildformate für Anonymisierung, jede mit spezifischen Merkmalen:
| Format | Erweiterungen | Notizen |
|---|---|---|
| PNG | .png | Verlustfreie Komprimierung. Am besten für Screenshots und digitale Dokumente. |
| JPEG | .jpg, .jpeg | Verlustbehaftete Komprimierung. Häufig bei Fotos. EXIF-Orientierung automatisch korrigiert. |
| BMP | .bmp | Unkomprimierte Bitmap. Große Dateigröße, aber kein Qualitätsverlust. |
| TIFF | .tiff, .tif | Häufig bei gescannten Dokumenten. Unterstützt mehrfache Seiten (erste Seite verarbeitet). |
Größenlimits: Maximale Dateigröße ist 10 MB. Maximale Auflösung ist 25 Megapixel. Bilder, die diese Limits überschreiten, werden mit einer klaren Fehlermeldung abgelehnt. Alle Ausgaben werden unabhängig vom Eingabeformat als PNG gespeichert.
Schritt-für-Schritt-Anleitung
Folgen Sie diesen Schritten, um ein Bild von Anfang bis Ende zu anonymisieren:
- Öffnen Sie die Bild-Registerkarte. Wechseln Sie zur Bild-Registerkarte im Anonymisierungs-Panel. Die Dropzone akzeptiert PNG-, JPG-, BMP- und TIFF-Dateien bis zu 10 MB.
- Legen Sie ein Bild ab. Ziehen Sie Ihr Bild auf die Dropzone oder klicken Sie zum Durchsuchen. Nach dem Laden konfigurieren Sie die Füllfarbe (schwarz, rot, grün, blau oder grau), wählen Sie eine Erkennungsvorgabe und wählen Sie die OCR-Sprache, die dem Text in Ihrem Bild entspricht.
- Klicken Sie auf Analyse. Tesseract OCR extrahiert allen sichtbaren Text mit Zeichen-Ebenen-Begrenzungsrahmen. Die Presidio NER-Engine erkennt dann PII-Entitäten innerhalb des extrahierten Texts und ordnet sie wieder Pixel-Koordinaten zu.
- Überprüfen Sie erkannte Entitäten. Jede erkannte PII-Region ist mit einem farbigen Begrenzungsrahmen auf der Bildvorschau hervorgehoben. Entitätstyp-Filter-Abzeichen mit Kontrollkästchen lassen Sie ganze Kategorien an- oder ausschalten — schalten Sie beispielsweise alle DATE_TIME-Erkennungen aus, wenn Daten in Ihrem Kontext nicht sensibel sind.
- Klicken Sie auf Ausgewählte redaktieren. Die App zeichnet farbige Füll-Rechtecke über alle aktivierten PII-Regionen und deckt dauerhaft den ursprünglichen Text im Ausgabe-Bild ab. Nur markierte Entitätstypen werden redaktiert.
- Vergleichen und speichern. Nutzen Sie den Vor-/Nachher-Vergleich, um die Redaktions-Abdeckung zu überprüfen. Klicken Sie auf Speichern, um das redaktierte PNG-Bild in Ihr Dateisystem herunterzuladen.
Tipps für beste Ergebnisse
Bild-Anonymisierungs-Qualität hängt stark von OCR-Genauigkeit ab. Befolgen Sie diese Richtlinien, um Erkennungs-Zuverlässigkeit zu maximieren:
- Verwenden Sie Screenshots, keine Kamera-Fotos. Screenshots von digitalem Inhalt ergeben viel bessere OCR-Ergebnisse als Fotos von Bildschirmen, die unter Moiré-Mustern, Blendung und reduziertem Kontrast leiden.
- Wählen Sie die korrekte OCR-Sprache. Nicht übereinstimmende Sprachauswahl ist die häufigste Ursache schlechter Ergebnisse. Wenn Ihr Bild deutschen Text enthält, wählen Sie Deutsch — nicht Englisch.
- Verwenden Sie 300+ DPI für Scans. Gescannte Dokumente sollten mindestens 300 DPI für zuverlässige Text-Extraktion sein. Bilder unter 150 DPI erzeugen erheblich verschlechterte Ergebnisse.
- Zuschneiden auf den Text-Bereich. Das Entfernen großer nicht-Text-Regionen (Fotos, Logos, Leerzeichen) beschleunigt die Verarbeitung und reduziert falsch positive Ergebnisse von Hintergrund-Rauschen.
- Stellen Sie guten Kontrast sicher. Dunkler Text auf hellem Hintergrund funktioniert am besten. Niedriger Kontrast zwischen Text und Hintergrund reduziert OCR-Genauigkeit erheblich.
Bekannte Einschränkungen
Bild-Anonymisierung hat inhärente Einschränkungen in Bezug auf OCR-Technologie. Das Verständnis dieser Faktoren hilft, angemessene Erwartungen zu setzen:
| Einschränkung | Beschreibung | Behelf |
|---|---|---|
| Fotos von Bildschirmen | Moiré-Muster, Blendung und Spiegelungen reduzieren OCR-Genauigkeit | Verwenden Sie stattdessen Screenshots oder direkte digitale Exporte |
| Handschriftlicher Text | Tesseract ist nur für gedruckten/getippten Text optimiert | Kein zuverlässiger Behelf; manuelle Redaktion erforderlich |
| Niedrige Auflösung (<150 DPI) | Unzureichende Details für zuverlässige Zeichenerkennung | Erneut bei 300+ DPI scannen oder vor Verarbeitung hochskalieren |
| Gedrehter/schiefer Text (>15°) | Tesseract kann angewinkelten Text nicht zuverlässig extrahieren | Geraden oder korrigieren Sie das Bild vor dem Upload |
| Komplexe Hintergründe | Wasserzeichen, Texturen und überlappende Elemente verwirren OCR | Zuschneiden auf saubere Text-Bereiche; Kontrast erhöhen |
| Sehr kleiner Text (<8pt) | Fällt unter OCR-Erkennungsschwelle | Zoom/zuschneiden, um die Text-Region zu vergrößern |
| Mehrspaltiges Layout | OCR-Leserehenfolge kann über Spalten hinweg verwirrt werden | Verarbeiten Sie jede Spalte als separates zugeschnittenes Bild |
| NER-Sprachmodell | NER nutzt das englische spaCy-Modell; Personennamen-Erkennung ist am stärksten für Englisch und lateinische Namen | Muster-basierte Entitäten (Telefonnummern, IBANs, E-Mails, Kreditkarten) funktionieren über alle Sprachen |
Überprüfen Sie für jede Bild-Anonymisierungs-Aufgabe immer die erkannten Entitäten vor der Redaktion. Der Überprüfungs-Schritt lässt Sie falsch positive Ergebnisse vom OCR-Rauschen erfassen und falsch negative Ergebnisse, bei denen PII verpasst wurde.
Bereit, es selbst zu versuchen? Sehen Sie es in Aktion →