Comment anonymiser du texte : Remplacer vs Chiffrer

Deux façons d'anonymiser du texte

Lorsque vous avez besoin de supprimer les informations personnelles du texte, anonym.plus vous donne deux opérateurs d'anonymisation distincts : Remplacer et Chiffrer. Les deux utilisent le même moteur de détection sous-jacent — Microsoft Presidio combiné avec les modèles NER de spaCy — pour identifier plus de 340 types d'informations d'identification personnelle (PII). La différence réside dans ce qui se passe après la détection.

Remplacer substitue chaque entité détectée par un espace réservé générique comme <PERSON> ou <EMAIL_ADDRESS>. La valeur d'origine est partie définitivement. Chiffrer transforme chaque entité en token de texte chiffré AES-256-GCM qui peut être déchiffré ultérieurement avec la clé de chiffrement correcte. Les deux opérations se produisent entièrement sur votre machine locale — aucun texte n'est jamais envoyé à un serveur.

Comprendre quand utiliser chaque approche est critique pour les flux de travail de conformité, les scénarios de collaboration et la gouvernance des données. Ce guide vous guide à travers les deux méthodes étape par étape et fournit une comparaison détaillée pour vous aider à choisir.

Comment fonctionne le remplacement de texte

L'opérateur Remplacer est la méthode d'anonymisation la plus courante. Il supprime définitivement les PII en substituant chaque entité détectée par un espace réservé basé sur le type. Voici le flux de travail complet :

Collez votre texte. Ouvrez anonym.plus et collez le texte que vous souhaitez anonymiser dans la zone de saisie texte. L'application fonctionne entièrement hors ligne — votre texte ne quitte jamais votre appareil.
Sélectionnez un préréglage de détection. Choisissez parmi 121 préréglages intégrés tels que PII général, conformité GDPR, médical HIPAA ou services financiers. Chaque préréglage définit quels types d'entités détecter et à quel seuil de confiance. Vous pouvez également créer des préréglages personnalisés dans Paramètres.
Démarrer l'analyse. Cliquez sur « Démarrer l'analyse » pour exécuter le moteur PNL local. Presidio et spaCy analysent votre texte pour les noms, adresses e-mail, numéros de téléphone, dates, emplacements, numéros de carte de crédit, IBANs, identifiants nationaux et des dizaines d'autres types d'entités.
Vérifiez les entités détectées. Chaque entité détectée s'affiche avec un badge de couleur codée montrant son type et son score de confiance. Vous pouvez activer ou désactiver les détections individuelles — utile pour corriger les faux positifs ou préserver les valeurs spécifiques que vous souhaitez conserver.
Choisissez l'opérateur Remplacer. Dans le panneau de sélection d'opérateur, sélectionnez « Remplacer » pour chaque type d'entité (ou définissez-le comme valeur par défaut). Vous pouvez personnaliser le format de remplacement — par exemple, remplacer les noms par <PERSON_1>, <PERSON_2> pour maintenir la cohérence des entités.
Anonymiser et exporter. Cliquez sur « Anonymiser » pour traiter. Le texte de sortie contient uniquement les espaces réservés — les valeurs PII d'origine sont définitivement supprimées. Copiez le résultat dans votre presse-papiers ou enregistrez-le en tant que fichier.

Après le traitement, votre texte pourrait ressembler à ceci : "<PERSON> a soumis une facture le <DATE_TIME> de <LOCATION>." Les noms, dates et emplacements d'origine sont irréversiblement partis.

Comment fonctionne le chiffrement de texte

L'opérateur Chiffrer suit le même flux de travail de détection mais produit une sortie fondamentalement différente. Au lieu d'espaces réservés, chaque entité PII est remplacée par un token chiffré qui peut être inversé.

Collez votre texte. Comme ci-dessus — collez le texte dans la zone de saisie.
Sélectionnez un préréglage de détection. Choisissez les mêmes préréglages que le mode Remplacer. L'étape de détection est identique.
Démarrer l'analyse et vérifier. Le moteur PNL détecte les entités de la même manière. Vérifiez et basculez les détections au besoin.
Choisissez l'opérateur Chiffrer. Sélectionnez « Chiffrer » dans le panneau d'opérateur. Vous aurez besoin d'une clé de chiffrement — créez-en une dans Paramètres ou sélectionnez une clé existante de votre coffre.
Anonymiser avec chiffrement. Cliquez sur « Anonymiser ». Chaque entité PII est chiffrée individuellement à l'aide d'AES-256-GCM avec un nonce aléatoire par entité. La sortie contient des tokens chiffrés comme <ENC:aGVsbG8gd29ybGQ=:iv:tag> à la place des valeurs d'origine.
Exporter et partager. Le document chiffré peut être partagé en toute sécurité. Les destinataires ne voient que les tokens de texte chiffré — pas les PII d'origine. Vous pouvez ultérieurement déchiffrer le document à l'aide de la fonction Dé-anonymiser avec la même clé de chiffrement.

La sortie chiffrée préserve la structure du document tout en rendant les PII illisibles pour quiconque n'a pas la clé. Cela active un flux de travail de collaboration puissant : chiffrez un document, partagez-le avec des collègues pour édition, recevez-le, et déchiffrez les PII — même si le texte environnant a été modifié.

Remplacer vs Chiffrer : quand utiliser lequel

Le tableau suivant fournit une comparaison côte à côte des deux opérateurs selon les dimensions les plus importantes :

Fonctionnalité	Remplacer	Chiffrer
Réversibilité	Irréversible — les PII d'origine sont définitivement supprimés	Entièrement réversible — déchiffrer avec la même clé de chiffrement
Format de sortie	Espaces réservés lisibles par l'homme (`<PERSON>`, `<EMAIL>`)	Tokens de texte chiffré codés en Base64
Meilleur cas d'usage	Publication publique, rédaction permanente, anonymisation GDPR	Partage interne, collaboration, rédaction temporaire
Performance	Plus rapide — substitution de chaîne simple	Légèrement plus lent — chiffrement AES-256-GCM par entité
Niveau de sécurité	Maximum — les données n'existent plus	Élevé — AES-256-GCM avec nonce aléatoire par entité
Clé requise	Non	Oui — doit sélectionner ou créer une clé de chiffrement
Classification GDPR	Anonymisation (les données sortent du champ d'application GDPR)	Pseudonymisation (les données restent dans le champ d'application GDPR)
Collaboration	Le document partagé ne peut pas être inversé	Partager, éditer, retourner — puis déchiffrer les tokens intacts
Lisibilité de la sortie	Élevée — les espaces réservés sont auto-explicatifs	Faible — les tokens de texte chiffré sont opaques

Quand choisir Remplacer

Vous devez publier ou partager des documents publiquement et ne jamais vouloir que les PII d'origine soient récupérables.
Les exigences réglementaires exigent une anonymisation complète (Article 4 du GDPR : les données anonymisées ne sont plus des données personnelles).
Vous créez des ensembles de données d'entraînement, des accessoires de test ou des journaux désinfectés où les espaces réservés sont suffisants.
Vous souhaitez le traitement le plus simple et le plus rapide sans frais généraux de gestion de clés.

Quand choisir Chiffrer

Vous devez partager des documents pour révision ou édition mais souhaitez restaurer les PII d'origine après.
Les processus juridiques ou d'audit exigent la capacité de retrouver les identités d'origine.
Vous travaillez dans une équipe où certains membres doivent voir les PII et d'autres non.
Vous souhaitez la pseudonymisation plutôt que l'anonymisation complète — par exemple, protection des données par la conception de l'article 25 du GDPR.

Procédure pas à pas

Voici une procédure combinée couvrant les deux opérateurs du début à la fin :

Ouvrez anonym.plus. L'application se lance avec l'onglet Anonymiser actif.
Collez le texte dans la zone de saisie ou tapez directement. Il n'y a pas de limite de taille pour l'entrée texte au-delà de la mémoire disponible.
Sélectionnez un préréglage de détection dans le menu déroulant. Pour une utilisation générale, « Détection PII générale » (seuil 0,85) fonctionne bien. Pour une conformité plus stricte, choisissez « Conformité GDPR » (seuil 0,90).
Cliquez sur « Démarrer l'analyse ». Le moteur Presidio local analyse le texte. Les entités détectées sont mises en évidence avec des badges de couleur.
Vérifiez chaque détection. Cliquez sur n'importe quelle entité pour voir son type, son score de confiance et sa position. Désactivez les faux positifs.
Choisissez votre opérateur :
- Pour Remplacer : sélectionnez « Remplacer » dans le menu déroulant d'opérateur. Aucune configuration supplémentaire nécessaire.
- Pour Chiffrer : sélectionnez « Chiffrer » et choisissez une clé de chiffrement de votre coffre (ou créez-en une nouvelle).
Cliquez sur « Anonymiser ». Le moteur applique votre opérateur choisi à chaque entité activée.
Vérifiez la sortie. Pour Remplacer, vérifiez que les espaces réservés sont corrects. Pour Chiffrer, vérifiez que les tokens chiffrés sont présents.
Copiez dans le presse-papiers ou enregistrez en tant que fichier. L'entrée de traitement est enregistrée dans votre historique local pour référence future ou dé-anonymisation.

Prêt à l'essayer vous-même ? Découvrez-le en action →

Limites connues

L'anonymisation de texte présente des limitations techniques et opérationnelles à connaître :

Sensibilité au contexte : Les modèles NER peuvent manquer des entités dans des contextes inhabituels ou des formulations ambiguës. La détection basée sur des motifs (e-mails, téléphones) est plus fiable mais limitée aux formats connus.
Contraintes linguistiques : La reconnaissance d'entités nommées utilise des modèles entraînés en anglais. Les entités basées sur des motifs (email, téléphone, IBAN) fonctionnent dans toutes les langues, mais la précision NER est moindre pour les textes non anglais.
Ne remplace pas la révision manuelle : Pour les documents hautement sensibles (juridiques, médicaux), une vérification manuelle est recommandée pour détecter les cas limites que le modèle NER pourrait manquer.