Comment anonymiser les images avec détection OCR

Comment fonctionne l'anonymisation d'images

L'anonymisation d'images dans anonym.plus combine la reconnaissance optique de caractères (OCR) avec la reconnaissance d'entités nommées (NER) pour détecter et rédiger les informations d'identification personnelle directement dans les images. Le pipeline traite chaque image à travers une série d'étapes étroitement intégrées :

Téléchargement d'image et correction EXIF. Lorsque vous téléchargez une image, l'application lit ses métadonnées d'orientation EXIF et fait automatiquement pivoter l'image vers l'orientation correcte. Les photos prises en mode portrait ou à des angles inhabituels sont corrigées avant toute extraction de texte.
Extraction de texte Tesseract OCR. L'image corrigée est transmise à Tesseract OCR, qui extrait tout le texte visible ainsi que les boîtes englobantes au niveau des caractères. Chaque caractère reconnu est mappé à ses coordonnées de pixel précises dans l'image. Tesseract supporte 38 langues OCR, et vous sélectionnez la langue principale du texte pour une précision optimale.
Détection PII NER Presidio. Le texte extrait est fourni au moteur NER Presidio, qui identifie les entités PII telles que les noms de personnes, les adresses e-mail, les numéros de téléphone, les dates, les emplacements, les identifiants nationaux, les numéros de carte de crédit, etc. en fonction de votre préréglage de détection sélectionné.
Remplissage et fusion des boîtes englobantes. Chaque entité PII détectée est mappée aux boîtes englobantes au niveau des caractères de l'étape OCR. Les boîtes englobantes sont complétées de 4 pixels de chaque côté pour assurer une couverture complète. Les boîtes adjacentes pour les entités multi-mots (comme les noms complets comme « John Smith ») sont fusionnées en une seule région contiguë.
Rendu des boîtes de rédaction. Des rectangles colorés sont dessinés sur chaque région PII détectée, couvrant complètement le texte d'origine dans l'image. Vous pouvez configurer la couleur de remplissage : noir, rouge, vert, bleu ou gris. La sortie est toujours une image PNG avec les PII rédigés visuellement.

L'intégralité du pipeline s'exécute localement sur votre machine. Aucune image n'est téléchargée sur aucun serveur. L'image d'origine n'est jamais modifiée — une nouvelle copie rédigée est créée.

Formats et limites pris en charge

anonym.plus prend en charge quatre formats d'image pour l'anonymisation, chacun avec des caractéristiques spécifiques :

Format	Extensions	Notes
PNG	.png	Compression sans perte. Meilleur pour les captures d'écran et les documents numériques.
JPEG	.jpg, .jpeg	Compression avec perte. Courant pour les photos. Orientation EXIF auto-corrigée.
BMP	.bmp	Bitmap non compressé. Grands tailles de fichier mais pas de perte de qualité.
TIFF	.tiff, .tif	Courant pour les documents numérisés. Supporte les multi-pages (première page traitée).

Limites de taille : La taille de fichier maximale est 10 Mo. La résolution maximale est 25 mégapixels. Les images dépassant ces limites sont rejetées avec un message d'erreur clair. Toute la sortie est enregistrée en PNG quel que soit le format d'entrée.

Procédure pas à pas

Suivez ces étapes pour anonymiser une image du début à la fin :

Ouvrir l'onglet Image. Passez à l'onglet Image dans le panneau d'anonymisation. La zone de dépôt accepte les fichiers PNG, JPG, BMP et TIFF jusqu'à 10 Mo.
Déposez une image. Faites glisser et déposez votre image sur la zone de dépôt ou cliquez pour parcourir. Une fois chargée, configurez la couleur de remplissage (noir, rouge, vert, bleu ou gris), sélectionnez un préréglage de détection et choisissez la langue OCR correspondant au texte dans votre image.
Cliquez sur Analyser. Tesseract OCR extrait tout le texte visible de l'image avec des boîtes englobantes au niveau des caractères. Le moteur NER Presidio détecte ensuite les entités PII dans le texte extrait et les mappe aux coordonnées de pixel.
Vérifiez les entités détectées. Chaque région PII détectée est mise en évidence avec une boîte englobante colorée sur l'aperçu de l'image. Les badges de filtre de type d'entité avec des cases à cocher vous permettent d'activer/désactiver des catégories entières — par exemple, désactiver toutes les détections DATE_TIME si les dates ne sont pas sensibles dans votre contexte.
Cliquez sur Rédiger sélectionné. L'application dessine des rectangles de remplissage colorés sur toutes les régions PII activées, couvrant définitivement le texte d'origine dans l'image de sortie. Seuls les types d'entités vérifiés sont rédigés.
Comparez et enregistrez. Utilisez la comparaison avant/après pour vérifier la couverture de rédaction. Cliquez sur Enregistrer pour télécharger l'image rédigée PNG sur votre système de fichiers.

Conseils pour les meilleurs résultats

La qualité de l'anonymisation d'images dépend fortement de la précision OCR. Suivez ces directives pour maximiser la fiabilité de la détection :

Utilisez des captures d'écran, pas des photos de caméra. Les captures d'écran du contenu numérique produisent de bien meilleurs résultats OCR que les photos d'écrans, qui souffrent de motifs de moiré, d'éblouissement et d'un contraste réduit.
Sélectionnez la langue OCR correcte. La langue mal correspondante est la cause la plus courante de mauvais résultats. Si votre image contient du texte allemand, sélectionnez l'allemand — pas l'anglais.
Utilisez 300+ DPI pour les numérisations. Les documents numérisés doivent être au moins 300 DPI pour une extraction de texte fiable. Les images en dessous de 150 DPI produisent des résultats considérablement dégradés.
Recadrez à la zone de texte. La suppression de grandes régions non textuelles (photos, logos, espaces blancs) accélère le traitement et réduit les faux positifs du bruit de fond.
Assurez-vous un bon contraste. Le texte foncé sur fond clair fonctionne le mieux. Le bas contraste entre le texte et le fond réduit considérablement la précision OCR.

Prêt à l'essayer vous-même ? Découvrez-le en action →

Limites Connues

L'anonymisation d'images a des limitations inhérentes liées à la technologie OCR. Comprendre celles-ci aide à définir des attentes appropriées :

Photos d'écrans : Les motifs de moiré, l'éblouissement et les reflets dégradent la précision OCR. Utilisez des captures d'écran à la place.
Texte manuscrit : Tesseract est optimisé uniquement pour le texte imprimé/tapé. Aucune solution de contournement fiable pour l'écriture manuscrite.
Basse résolution (<150 DPI) : Détails insuffisants pour une reconnaissance de caractères fiable. Numérisez à 300+ DPI.
Texte pivoté/incliné (>15°) : Tesseract ne peut pas extraire de manière fiable le texte en angle. Redressez avant le traitement.