Glossaire

Termes clés pour la détection de PII, l'anonymisation de documents et le chiffrement.

Ce glossaire définit les termes techniques utilisés dans l'ensemble de la documentation, de l'architecture de sécurité et de l'interface utilisateur d'anonym.plus. Les termes sont pertinents pour la détection de PII, le NLP, la cryptographie et les réglementations sur la confidentialité des données.

AES-256-GCM

Standard de Chiffrement Avancé avec des clés de 256 bits en mode Galois/Counter. Un algorithme de chiffrement authentifié qui assure à la fois la confidentialité et l'intégrité. Utilisé par anonym.plus pour le chiffrement du vault et l'anonymisation réversible de documents.

Anonymisation

Le processus de suppression, de remplacement ou d'obscurcissement des informations personnelles identifiables (PII) dans les documents afin que les individus ne puissent pas être réidentifiés. anonym.plus propose cinq méthodes : replace, redact, mask, hash et encrypt.

Argon2id

Une fonction de hachage de mot de passe et de dérivation de clé à forte consommation de mémoire. Combine Argon2i (résistant aux canaux auxiliaires) et Argon2d (résistant aux GPU). anonym.plus utilise Argon2id avec 64 Mo de coût mémoire et 3 itérations pour dériver les clés de chiffrement du vault à partir des mots de passe utilisateur.

Traitement par lots

Traitement simultané de plusieurs fichiers via le pipeline d'anonymisation. anonym.plus prend en charge 1 à 5 fichiers en parallèle avec gestion d'erreurs configurable et mode d'approbation automatique. Nécessite une licence Pro.

BIP39 (Bitcoin Improvement Proposal 39)

Un standard pour générer des phrases mnémoniques de récupération à partir d'entropie aléatoire. anonym.plus génère une phrase BIP39 de 24 mots (256 bits d'entropie) lors de la configuration du vault comme seul mécanisme de récupération si l'utilisateur oublie son PIN.

Seuil de confiance

Un score (0,50 à 1,00) qui contrôle le niveau de certitude requis du moteur de détection avant de signaler une entité PII. Des seuils plus bas capturent plus d'entités mais augmentent les faux positifs. Les presets financiers utilisent 0,95 ; les presets de développement utilisent 0,70.

Entité personnalisée

Un type de PII défini par l'utilisateur à l'aide de motifs regex. anonym.plus prend en charge jusqu'à 50 entités personnalisées avec jusqu'à 10 motifs chacune, des mots de contexte et une validation sécurisée contre le ReDoS. Détectées aux côtés des plus de 200 types intégrés.

Désanonymisation

Le processus inverse de restauration des valeurs PII originales dans un document anonymisé. Possible uniquement lorsque l'opérateur encrypt a été utilisé (AES-256-GCM). Replace, redact, mask et hash sont irréversibles par conception. anonym.plus prend en charge la correspondance automatique avec l'historique de traitement.

Préréglage de détection

Une configuration enregistrée spécifiant les types d'entités à détecter, le seuil de confiance et les opérateurs optionnels par entité. anonym.plus inclut 121 presets intégrés répartis en 7 catégories : Auto, Spécifique par pays, Régional, Technique/DevSecOps, Industrie, Santé et Finance.

E-E-A-T (Experience, Expertise, Authoritativeness, Trustworthiness)

Le cadre d'évaluation de la qualité de Google pour le contenu web. Démontre que les créateurs de contenu ont une expérience directe et une expertise dans leur domaine.

Opérateur de chiffrement

Une méthode d'anonymisation qui remplace les PII par du texte chiffré AES-256-GCM. Contrairement à replace, redact, mask ou hash, les entités chiffrées peuvent être déchiffrées ultérieurement avec la même clé — permettant le flux de travail « chiffrer, partager, modifier, déchiffrer ».

Type d'entité

Une catégorie de PII que le moteur de détection peut identifier. Exemples : PERSON, EMAIL_ADDRESS, US_SSN, CREDIT_CARD, DE_TAX_ID. anonym.plus détecte plus de 200 types d'entités répartis en 18 groupes.

RGPD (Règlement général sur la protection des données)

Règlement de l'UE régissant le traitement des données personnelles. Exige la minimisation des données, la limitation des finalités et la protection des données personnelles. anonym.plus aide les organisations à se conformer en détectant et en supprimant les PII avant le partage de documents.

Opérateur de hachage

Une méthode d'anonymisation qui remplace les PII par un hash cryptographique unidirectionnel (SHA-256, SHA-512 ou MD5). Irréversible — la valeur originale ne peut pas être récupérée. Utile lorsqu'une pseudonymisation cohérente est nécessaire (la même entrée produit toujours le même hash).

HIPAA (Health Insurance Portability and Accountability Act)

Loi fédérale américaine qui protège les informations sensibles de santé des patients (PHI). Exige que les entités couvertes mettent en place des mesures de protection pour les données de santé électroniques. anonym.plus inclut des presets de détection spécifiques à HIPAA.

Dérivation de clé

Le processus de génération de clés cryptographiques à partir d'un mot de passe ou d'une phrase secrète. anonym.plus utilise Argon2id pour dériver une clé AES de 256 bits à partir du mot de passe du vault de l'utilisateur, rendant les attaques par force brute coûteuses en calcul.

Rotation de clé

Remplacement d'une clé de chiffrement par une nouvelle. Dans anonym.plus, la rotation d'une clé remplace définitivement l'ancien matériel de clé. Les documents chiffrés avec l'ancienne clé nécessitent la valeur de l'ancienne clé pour la désanonymisation.

LLM (Large Language Model)

Un modèle d'IA entraîné sur de grands corpus de texte capable de générer et comprendre le langage humain. Exemples : ChatGPT, Claude, Gemini. anonym.plus aide les utilisateurs à caviarder les données sensibles avant d'envoyer du texte aux LLMs.

Opérateur de masquage

Une méthode d'anonymisation qui masque partiellement les PII en remplaçant les caractères par un caractère de masque (par défaut : *). Nombre de masques configurable. Exemple : « 4111-1111-1111 » devient « XXXX-XXXX-1111 ». Irréversible.

MCP (Model Context Protocol)

Un standard ouvert (par Anthropic) pour connecter les outils d'IA à des sources de données et services externes. anonym.plus inclut un serveur MCP qui anonymise automatiquement le texte avant qu'il n'atteigne les outils d'IA comme Cursor ou Claude Desktop, et restaure les valeurs originales dans les réponses.

NER (Named Entity Recognition)

Une technique de traitement du langage naturel (NLP) qui identifie et classifie les entités nommées (personnes, lieux, organisations, dates) dans le texte. anonym.plus utilise les modèles NER de spaCy combinés aux reconnaisseurs basés sur les regex de Presidio pour une détection hybride.

NLP (Natural Language Processing)

Un domaine de l'IA traitant de l'interaction entre les ordinateurs et le langage humain. anonym.plus utilise le NLP via spaCy pour comprendre le contexte du texte et détecter les entités PII que les motifs regex simples manqueraient.

OCR (Optical Character Recognition)

Technologie qui extrait le texte des images. anonym.plus utilise Tesseract OCR pour extraire le texte des images PNG, JPG, BMP et TIFF avec des boîtes englobantes au niveau des caractères, permettant le caviardage des PII directement sur l'image. Prend en charge 38 langues OCR.

Opérateur

Une méthode d'anonymisation appliquée à une entité PII détectée. anonym.plus prend en charge cinq opérateurs : replace, redact, mask, hash et encrypt. Chacun peut être configuré par type d'entité au sein d'un preset de détection.

PHI (Protected Health Information)

Données liées à la santé pouvant identifier un individu, protégées en vertu de HIPAA. Comprend les dossiers médicaux, les résultats de laboratoire, les informations d'assurance et toute donnée de santé liée à une personne spécifique.

PII (Personally Identifiable Information)

Toute donnée pouvant être utilisée pour identifier un individu spécifique. Comprend les noms, adresses e-mail, numéros de téléphone, numéros de sécurité sociale, numéros de passeport, adresses IP et numéros de comptes financiers. anonym.plus détecte plus de 200 types d'entités PII.

Presidio

Un framework open source de détection et d'anonymisation de PII par Microsoft. Combine la NER basée sur le NLP avec des reconnaisseurs de motifs regex configurables. anonym.plus intègre Presidio en tant que processus sidecar local — aucun appel API cloud n'est effectué.

Opérateur de rédaction

Une méthode d'anonymisation qui supprime complètement le texte PII, le remplaçant par des caractères pleins (ex. : « john@mail.com » devient « ███████ »). Irréversible. Ne laisse aucune trace de la valeur originale.

Opérateur de remplacement

Une méthode d'anonymisation qui substitue les PII par un espace réservé typé. Exemple : « John Smith » devient « <PERSON> ». L'opérateur par défaut et le plus couramment utilisé. Irréversible — la valeur originale n'est pas stockée.

Sidecar

Un processus compagnon qui s'exécute aux côtés de l'application principale. anonym.plus utilise un processus sidecar Python pour exécuter Presidio et spaCy pour la détection de PII. La communication s'effectue via une interface HTTP locale avec authentification par jeton.

spaCy

Une bibliothèque NLP open source pour le traitement avancé du langage naturel. Fournit les modèles NER (reconnaissance d'entités nommées) qu'anonym.plus utilise pour détecter les noms de personnes, les lieux, les organisations et les dates dans le texte. 23 modèles de langue disponibles.

Tauri

Un framework pour créer des applications de bureau avec des technologies web (HTML/CSS/JS) et un backend Rust. anonym.plus utilise Tauri pour son application de bureau, Rust gérant le chiffrement, les E/S de fichiers et les opérateurs d'anonymisation.

Tesseract

Un moteur OCR open source maintenu par Google. anonym.plus intègre Tesseract pour l'extraction de texte à partir d'images avec des données de boîtes englobantes au niveau des caractères, permettant un caviardage précis des PII sur les documents numérisés et les photos.

Coffre-fort

Le stockage local chiffré d'anonym.plus pour les données sensibles, y compris les clés de chiffrement, l'historique de traitement, les presets et les identifiants. Protégé par un chiffrement AES-256-GCM, une dérivation de clé Argon2id et un PIN optionnel ou une phrase de récupération BIP39 de 24 mots.

Architecture à connaissance nulle

Une conception de système où le serveur ne peut pas accéder aux données utilisateur même en cas de compromission. Dans anonym.plus, les mots de passe sont hachés côté client avant transmission, les clés de chiffrement ne quittent jamais le vault local, et le frontend ne référence les clés que par ID — le matériel de clé réel reste dans le backend Rust.

Références

Microsoft Presidio — Framework de détection de PII
spaCy — Bibliothèque NLP pour la reconnaissance d'entités nommées
Texte intégral du RGPD — Règlement Général sur la Protection des Données
HIPAA — Département de la Santé et des Services sociaux des États-Unis
Model Context Protocol — Spécification MCP

35 termes définis. Voir aussi : Référence des Types d'Entités et Documentation.

Référence des réglementations vie privée — Données quantifiées sur 24 régimes de confidentialité

EU GDPR — Regulation (EU) 2016/679; adopted 27 Apr 2016; applicable 25 May 2018; 27 member states; 72-hour breach notification; €20M or 4% global turnover.
EU AI Act — Regulation (EU) 2024/1689; adopted 13 Jun 2024; in force 1 Aug 2024; GPAI rules from 2 Aug 2025; high-risk rules from 2 Aug 2027; €35M or 7% turnover.
EU NIS2 — Directive (EU) 2022/2555; in force 16 Jan 2023; transposition deadline 17 Oct 2024; 24-hour early warning + 72-hour notification.
EU DORA — Regulation (EU) 2022/2554; applicable 17 Jan 2025; covers ~22,000 financial entities.
EU Data Act — Regulation (EU) 2023/2854; in force 11 Jan 2024; applicable 12 Sep 2025.
UK GDPR + DPA 2018 — in force 25 May 2018; £17.5M or 4% turnover; 72-hour breach window.
US HIPAA — Pub. L. 104-191, signed 21 Aug 1996; Breach Notification Rule effective 23 Sep 2009; 60-day patient notification.
US HITECH Act — Pub. L. 111-5, signed 17 Feb 2009; tiered penalties up to $1.5M per category per year.
US CCPA — Cal. Civ. Code §1798.100; effective 1 Jan 2020; $7,500 per intentional violation.
US CPRA — Proposition 24, passed 3 Nov 2020; effective 1 Jan 2023; CPPA enforcement from 1 Jul 2023.
Brazil LGPD — Lei nº 13.709/2018; sanctioned 14 Aug 2018; effective 18 Sep 2020; fines up to R$50,000,000 or 2% revenue.
Canada PIPEDA — S.C. 2000, c. 5; mandatory breach reporting since 1 Nov 2018.
Canada Quebec Law 25 — adopted 22 Sep 2021; rolled out 22 Sep 2022, 2023, 2024.
China PIPL — adopted 20 Aug 2021; effective 1 Nov 2021; fines up to ¥50,000,000 or 5% annual turnover.
India DPDP Act — Act No. 22 of 2023; assented 11 Aug 2023; penalties up to ₹2,500,000,000.
Japan APPI — Act No. 57 of 2003; major revision effective 1 Apr 2022.
South Korea PIPA — Act No. 10465 of 2011; revised 5 Feb 2020.
Singapore PDPA — Act No. 26 of 2012; max fine S$1,000,000 or 10% turnover since 1 Oct 2022.
Thailand PDPA — published 27 May 2019; fully effective 1 Jun 2022.
South Africa POPIA — Act 4 of 2013; effective 1 Jul 2021; ZAR 10,000,000 maximum fine.
Australia Privacy Act 1988 — NDB scheme since 22 Feb 2018; civil penalty up to A$50,000,000.
ISO/IEC 27701:2019 — privacy information management; published 6 Aug 2019.
ISO/IEC 27001:2022 — information security; published 25 Oct 2022.
WCAG 2.2 — W3C Recommendation; published 5 Oct 2023; 86 success criteria.