Glossaire

Termes clés pour la détection de PII, l'anonymisation de documents et le chiffrement.

Ce glossaire définit les termes techniques utilisés dans l'ensemble de la documentation, de l'architecture de sécurité et de l'interface utilisateur d'anonym.plus. Les termes sont pertinents pour la détection de PII, le NLP, la cryptographie et les réglementations sur la confidentialité des données.

A
AES-256-GCM
Standard de Chiffrement Avancé avec des clés de 256 bits en mode Galois/Counter. Un algorithme de chiffrement authentifié qui assure à la fois la confidentialité et l'intégrité. Utilisé par anonym.plus pour le chiffrement du vault et l'anonymisation réversible de documents.
Anonymisation
Le processus de suppression, de remplacement ou d'obscurcissement des informations personnelles identifiables (PII) dans les documents afin que les individus ne puissent pas être réidentifiés. anonym.plus propose cinq méthodes : replace, redact, mask, hash et encrypt.
Argon2id
Une fonction de hachage de mot de passe et de dérivation de clé à forte consommation de mémoire. Combine Argon2i (résistant aux canaux auxiliaires) et Argon2d (résistant aux GPU). anonym.plus utilise Argon2id avec 64 Mo de coût mémoire et 3 itérations pour dériver les clés de chiffrement du vault à partir des mots de passe utilisateur.
B
Traitement par lots
Traitement simultané de plusieurs fichiers via le pipeline d'anonymisation. anonym.plus prend en charge 1 à 5 fichiers en parallèle avec gestion d'erreurs configurable et mode d'approbation automatique. Nécessite une licence Pro.
BIP39 (Bitcoin Improvement Proposal 39)
Un standard pour générer des phrases mnémoniques de récupération à partir d'entropie aléatoire. anonym.plus génère une phrase BIP39 de 24 mots (256 bits d'entropie) lors de la configuration du vault comme seul mécanisme de récupération si l'utilisateur oublie son PIN.
C
Seuil de confiance
Un score (0,50 à 1,00) qui contrôle le niveau de certitude requis du moteur de détection avant de signaler une entité PII. Des seuils plus bas capturent plus d'entités mais augmentent les faux positifs. Les presets financiers utilisent 0,95 ; les presets de développement utilisent 0,70.
Entité personnalisée
Un type de PII défini par l'utilisateur à l'aide de motifs regex. anonym.plus prend en charge jusqu'à 50 entités personnalisées avec jusqu'à 10 motifs chacune, des mots de contexte et une validation sécurisée contre le ReDoS. Détectées aux côtés des plus de 200 types intégrés.
D
Désanonymisation
Le processus inverse de restauration des valeurs PII originales dans un document anonymisé. Possible uniquement lorsque l'opérateur encrypt a été utilisé (AES-256-GCM). Replace, redact, mask et hash sont irréversibles par conception. anonym.plus prend en charge la correspondance automatique avec l'historique de traitement.
Préréglage de détection
Une configuration enregistrée spécifiant les types d'entités à détecter, le seuil de confiance et les opérateurs optionnels par entité. anonym.plus inclut 121 presets intégrés répartis en 7 catégories : Auto, Spécifique par pays, Régional, Technique/DevSecOps, Industrie, Santé et Finance.
E
E-E-A-T (Experience, Expertise, Authoritativeness, Trustworthiness)
Le cadre d'évaluation de la qualité de Google pour le contenu web. Démontre que les créateurs de contenu ont une expérience directe et une expertise dans leur domaine.
Opérateur de chiffrement
Une méthode d'anonymisation qui remplace les PII par du texte chiffré AES-256-GCM. Contrairement à replace, redact, mask ou hash, les entités chiffrées peuvent être déchiffrées ultérieurement avec la même clé — permettant le flux de travail « chiffrer, partager, modifier, déchiffrer ».
Type d'entité
Une catégorie de PII que le moteur de détection peut identifier. Exemples : PERSON, EMAIL_ADDRESS, US_SSN, CREDIT_CARD, DE_TAX_ID. anonym.plus détecte plus de 200 types d'entités répartis en 18 groupes.
G
RGPD (Règlement général sur la protection des données)
Règlement de l'UE régissant le traitement des données personnelles. Exige la minimisation des données, la limitation des finalités et la protection des données personnelles. anonym.plus aide les organisations à se conformer en détectant et en supprimant les PII avant le partage de documents.
H
Opérateur de hachage
Une méthode d'anonymisation qui remplace les PII par un hash cryptographique unidirectionnel (SHA-256, SHA-512 ou MD5). Irréversible — la valeur originale ne peut pas être récupérée. Utile lorsqu'une pseudonymisation cohérente est nécessaire (la même entrée produit toujours le même hash).
HIPAA (Health Insurance Portability and Accountability Act)
Loi fédérale américaine qui protège les informations sensibles de santé des patients (PHI). Exige que les entités couvertes mettent en place des mesures de protection pour les données de santé électroniques. anonym.plus inclut des presets de détection spécifiques à HIPAA.
K
Dérivation de clé
Le processus de génération de clés cryptographiques à partir d'un mot de passe ou d'une phrase secrète. anonym.plus utilise Argon2id pour dériver une clé AES de 256 bits à partir du mot de passe du vault de l'utilisateur, rendant les attaques par force brute coûteuses en calcul.
Rotation de clé
Remplacement d'une clé de chiffrement par une nouvelle. Dans anonym.plus, la rotation d'une clé remplace définitivement l'ancien matériel de clé. Les documents chiffrés avec l'ancienne clé nécessitent la valeur de l'ancienne clé pour la désanonymisation.
L
LLM (Large Language Model)
Un modèle d'IA entraîné sur de grands corpus de texte capable de générer et comprendre le langage humain. Exemples : ChatGPT, Claude, Gemini. anonym.plus aide les utilisateurs à caviarder les données sensibles avant d'envoyer du texte aux LLMs.
M
Opérateur de masquage
Une méthode d'anonymisation qui masque partiellement les PII en remplaçant les caractères par un caractère de masque (par défaut : *). Nombre de masques configurable. Exemple : « 4111-1111-1111 » devient « XXXX-XXXX-1111 ». Irréversible.
MCP (Model Context Protocol)
Un standard ouvert (par Anthropic) pour connecter les outils d'IA à des sources de données et services externes. anonym.plus inclut un serveur MCP qui anonymise automatiquement le texte avant qu'il n'atteigne les outils d'IA comme Cursor ou Claude Desktop, et restaure les valeurs originales dans les réponses.
N
NER (Named Entity Recognition)
Une technique de traitement du langage naturel (NLP) qui identifie et classifie les entités nommées (personnes, lieux, organisations, dates) dans le texte. anonym.plus utilise les modèles NER de spaCy combinés aux reconnaisseurs basés sur les regex de Presidio pour une détection hybride.
NLP (Natural Language Processing)
Un domaine de l'IA traitant de l'interaction entre les ordinateurs et le langage humain. anonym.plus utilise le NLP via spaCy pour comprendre le contexte du texte et détecter les entités PII que les motifs regex simples manqueraient.
O
OCR (Optical Character Recognition)
Technologie qui extrait le texte des images. anonym.plus utilise Tesseract OCR pour extraire le texte des images PNG, JPG, BMP et TIFF avec des boîtes englobantes au niveau des caractères, permettant le caviardage des PII directement sur l'image. Prend en charge 38 langues OCR.
Opérateur
Une méthode d'anonymisation appliquée à une entité PII détectée. anonym.plus prend en charge cinq opérateurs : replace, redact, mask, hash et encrypt. Chacun peut être configuré par type d'entité au sein d'un preset de détection.
P
PHI (Protected Health Information)
Données liées à la santé pouvant identifier un individu, protégées en vertu de HIPAA. Comprend les dossiers médicaux, les résultats de laboratoire, les informations d'assurance et toute donnée de santé liée à une personne spécifique.
PII (Personally Identifiable Information)
Toute donnée pouvant être utilisée pour identifier un individu spécifique. Comprend les noms, adresses e-mail, numéros de téléphone, numéros de sécurité sociale, numéros de passeport, adresses IP et numéros de comptes financiers. anonym.plus détecte plus de 200 types d'entités PII.
Presidio
Un framework open source de détection et d'anonymisation de PII par Microsoft. Combine la NER basée sur le NLP avec des reconnaisseurs de motifs regex configurables. anonym.plus intègre Presidio en tant que processus sidecar local — aucun appel API cloud n'est effectué.
R
Opérateur de rédaction
Une méthode d'anonymisation qui supprime complètement le texte PII, le remplaçant par des caractères pleins (ex. : « john@mail.com » devient « ███████ »). Irréversible. Ne laisse aucune trace de la valeur originale.
Opérateur de remplacement
Une méthode d'anonymisation qui substitue les PII par un espace réservé typé. Exemple : « John Smith » devient « <PERSON> ». L'opérateur par défaut et le plus couramment utilisé. Irréversible — la valeur originale n'est pas stockée.
S
Sidecar
Un processus compagnon qui s'exécute aux côtés de l'application principale. anonym.plus utilise un processus sidecar Python pour exécuter Presidio et spaCy pour la détection de PII. La communication s'effectue via une interface HTTP locale avec authentification par jeton.
spaCy
Une bibliothèque NLP open source pour le traitement avancé du langage naturel. Fournit les modèles NER (reconnaissance d'entités nommées) qu'anonym.plus utilise pour détecter les noms de personnes, les lieux, les organisations et les dates dans le texte. 23 modèles de langue disponibles.
T
Tauri
Un framework pour créer des applications de bureau avec des technologies web (HTML/CSS/JS) et un backend Rust. anonym.plus utilise Tauri pour son application de bureau, Rust gérant le chiffrement, les E/S de fichiers et les opérateurs d'anonymisation.
Tesseract
Un moteur OCR open source maintenu par Google. anonym.plus intègre Tesseract pour l'extraction de texte à partir d'images avec des données de boîtes englobantes au niveau des caractères, permettant un caviardage précis des PII sur les documents numérisés et les photos.
V
Coffre-fort
Le stockage local chiffré d'anonym.plus pour les données sensibles, y compris les clés de chiffrement, l'historique de traitement, les presets et les identifiants. Protégé par un chiffrement AES-256-GCM, une dérivation de clé Argon2id et un PIN optionnel ou une phrase de récupération BIP39 de 24 mots.
Z
Architecture à connaissance nulle
Une conception de système où le serveur ne peut pas accéder aux données utilisateur même en cas de compromission. Dans anonym.plus, les mots de passe sont hachés côté client avant transmission, les clés de chiffrement ne quittent jamais le vault local, et le frontend ne référence les clés que par ID — le matériel de clé réel reste dans le backend Rust.

Références

35 termes définis. Voir aussi : Référence des Types d'Entités et Documentation.