Bilder mit OCR-basierter Erkennung anonymisieren

Erkennen und redaktieren Sie sensiblen Text in Fotos und Scans mit Tesseract OCR und NER-basierter PII-Erkennung.

Von anonym.plus · Veröffentlicht März 2026 · Aktualisiert März 2026

Wie Bild-Anonymisierung funktioniert

Bild-Anonymisierung in anonym.plus kombiniert Optische Zeichenerkennung (OCR) mit Named Entity Recognition (NER), um personenbezogene Informationen direkt in Bildern zu erkennen und zu redaktieren. Die Pipeline verarbeitet jedes Bild durch eine Reihe eng integrierter Phasen:

  1. Bild-Upload und EXIF-Korrektur. Wenn Sie ein Bild hochladen, liest die App seine EXIF-Orientierungs-Metadaten und dreht das Bild automatisch in die korrekte Ausrichtung. Fotos im Hochformat oder in ungewöhnlichen Winkeln werden vor der Text-Extraktion korrigiert.
  2. Tesseract OCR Text-Extraktion. Das korrigierte Bild wird an Tesseract OCR übergeben, das allen sichtbaren Text zusammen mit Zeichen-Ebenen-Begrenzungsrahmen extrahiert. Jedes erkannte Zeichen wird auf seine genauen Pixel-Koordinaten im Bild abgebildet. Tesseract unterstützt 38 OCR-Sprachen, und Sie wählen die primäre Sprache des Textes für optimale Genauigkeit.
  3. Presidio NER PII-Erkennung. Der extrahierte Text wird zur Presidio NER-Engine gesendet, die PII-Entitäten wie Personennamen, E-Mail-Adressen, Telefonnummern, Daten, Standorte, nationale IDs, Kreditkartennummern und mehr basierend auf Ihrer ausgewählten Erkennungsvorgabe identifiziert.
  4. Begrenzungsrahmen-Polsterung und Zusammenführung. Jede erkannte PII-Entität wird auf die Zeichen-Ebenen-Begrenzungsrahmen aus dem OCR-Schritt abgebildet. Begrenzungsrahmen werden um 4 Pixel auf jeder Seite gepolstert, um vollständige Abdeckung zu gewährleisten. Benachbarte Rahmen für mehrwörtige Entitäten (wie Vollnamen "John Smith") werden in eine einzelne zusammenhängende Region zusammengeführt.
  5. Redaktions-Kastenrendering. Farbige Rechtecke werden über jede erkannte PII-Region gezogen, die den ursprünglichen Text im Bild vollständig abdeckt. Sie können die Füllfarbe konfigurieren: schwarz, rot, grün, blau oder grau. Die Ausgabe ist immer ein PNG-Bild mit visuell redaktierter PII.

Die gesamte Pipeline wird lokal auf Ihrem Gerät ausgeführt. Keine Bilder werden zu einem Server hochgeladen. Das ursprüngliche Bild wird nie geändert — eine neue redaktierte Kopie wird erstellt.

Unterstützte Formate und Limits

anonym.plus unterstützt vier Bildformate für Anonymisierung, jede mit spezifischen Merkmalen:

Format Erweiterungen Notizen
PNG .png Verlustfreie Komprimierung. Am besten für Screenshots und digitale Dokumente.
JPEG .jpg, .jpeg Verlustbehaftete Komprimierung. Häufig bei Fotos. EXIF-Orientierung automatisch korrigiert.
BMP .bmp Unkomprimierte Bitmap. Große Dateigröße, aber kein Qualitätsverlust.
TIFF .tiff, .tif Häufig bei gescannten Dokumenten. Unterstützt mehrfache Seiten (erste Seite verarbeitet).

Größenlimits: Maximale Dateigröße ist 10 MB. Maximale Auflösung ist 25 Megapixel. Bilder, die diese Limits überschreiten, werden mit einer klaren Fehlermeldung abgelehnt. Alle Ausgaben werden unabhängig vom Eingabeformat als PNG gespeichert.

Schritt-für-Schritt-Anleitung

Folgen Sie diesen Schritten, um ein Bild von Anfang bis Ende zu anonymisieren:

  1. Öffnen Sie die Bild-Registerkarte. Wechseln Sie zur Bild-Registerkarte im Anonymisierungs-Panel. Die Dropzone akzeptiert PNG-, JPG-, BMP- und TIFF-Dateien bis zu 10 MB.
  2. Legen Sie ein Bild ab. Ziehen Sie Ihr Bild auf die Dropzone oder klicken Sie zum Durchsuchen. Nach dem Laden konfigurieren Sie die Füllfarbe (schwarz, rot, grün, blau oder grau), wählen Sie eine Erkennungsvorgabe und wählen Sie die OCR-Sprache, die dem Text in Ihrem Bild entspricht.
  3. Klicken Sie auf Analyse. Tesseract OCR extrahiert allen sichtbaren Text mit Zeichen-Ebenen-Begrenzungsrahmen. Die Presidio NER-Engine erkennt dann PII-Entitäten innerhalb des extrahierten Texts und ordnet sie wieder Pixel-Koordinaten zu.
  4. Überprüfen Sie erkannte Entitäten. Jede erkannte PII-Region ist mit einem farbigen Begrenzungsrahmen auf der Bildvorschau hervorgehoben. Entitätstyp-Filter-Abzeichen mit Kontrollkästchen lassen Sie ganze Kategorien an- oder ausschalten — schalten Sie beispielsweise alle DATE_TIME-Erkennungen aus, wenn Daten in Ihrem Kontext nicht sensibel sind.
  5. Klicken Sie auf Ausgewählte redaktieren. Die App zeichnet farbige Füll-Rechtecke über alle aktivierten PII-Regionen und deckt dauerhaft den ursprünglichen Text im Ausgabe-Bild ab. Nur markierte Entitätstypen werden redaktiert.
  6. Vergleichen und speichern. Nutzen Sie den Vor-/Nachher-Vergleich, um die Redaktions-Abdeckung zu überprüfen. Klicken Sie auf Speichern, um das redaktierte PNG-Bild in Ihr Dateisystem herunterzuladen.

Tipps für beste Ergebnisse

Bild-Anonymisierungs-Qualität hängt stark von OCR-Genauigkeit ab. Befolgen Sie diese Richtlinien, um Erkennungs-Zuverlässigkeit zu maximieren:

Bekannte Einschränkungen

Bild-Anonymisierung hat inhärente Einschränkungen in Bezug auf OCR-Technologie. Das Verständnis dieser Faktoren hilft, angemessene Erwartungen zu setzen:

Einschränkung Beschreibung Behelf
Fotos von Bildschirmen Moiré-Muster, Blendung und Spiegelungen reduzieren OCR-Genauigkeit Verwenden Sie stattdessen Screenshots oder direkte digitale Exporte
Handschriftlicher Text Tesseract ist nur für gedruckten/getippten Text optimiert Kein zuverlässiger Behelf; manuelle Redaktion erforderlich
Niedrige Auflösung (<150 DPI) Unzureichende Details für zuverlässige Zeichenerkennung Erneut bei 300+ DPI scannen oder vor Verarbeitung hochskalieren
Gedrehter/schiefer Text (>15°) Tesseract kann angewinkelten Text nicht zuverlässig extrahieren Geraden oder korrigieren Sie das Bild vor dem Upload
Komplexe Hintergründe Wasserzeichen, Texturen und überlappende Elemente verwirren OCR Zuschneiden auf saubere Text-Bereiche; Kontrast erhöhen
Sehr kleiner Text (<8pt) Fällt unter OCR-Erkennungsschwelle Zoom/zuschneiden, um die Text-Region zu vergrößern
Mehrspaltiges Layout OCR-Leserehenfolge kann über Spalten hinweg verwirrt werden Verarbeiten Sie jede Spalte als separates zugeschnittenes Bild
NER-Sprachmodell NER nutzt das englische spaCy-Modell; Personennamen-Erkennung ist am stärksten für Englisch und lateinische Namen Muster-basierte Entitäten (Telefonnummern, IBANs, E-Mails, Kreditkarten) funktionieren über alle Sprachen

Überprüfen Sie für jede Bild-Anonymisierungs-Aufgabe immer die erkannten Entitäten vor der Redaktion. Der Überprüfungs-Schritt lässt Sie falsch positive Ergebnisse vom OCR-Rauschen erfassen und falsch negative Ergebnisse, bei denen PII verpasst wurde.

Bereit, es selbst zu versuchen? Sehen Sie es in Aktion →