Comment anonymiser les fichiers PDF, DOCX et XLSX

Formats de documents pris en charge

anonym.plus traite sept formats de documents, chacun avec des limites de taille spécifiques et des caractéristiques de préservation de la structure. L'application extrait le texte localement de chaque format, exécute la détection PII via le moteur Presidio et produit une sortie anonymisée — tout sans aucun appel réseau.

Format	Taille max	Structure préservée	Notes
PDF	50 Mo	Couche de texte uniquement	Le texte est extrait de la couche de texte du PDF. Les PDF numérisés nécessitent un prétraitement OCR. La mise en page et les images passent inchangées.
DOCX	30 Mo	Formatage complet	Les paragraphes, tableaux, en-têtes, pieds de page, styles et polices sont préservés. Seul le contenu texte est modifié.
XLSX	20 Mo / 100 k lignes	Structure des cellules	Les valeurs de cellule, les noms de feuilles et les formules sont préservés. Les PII sont détectés et remplacés dans le texte des cellules.
CSV	30 Mo	Structure ligne/colonne	La détection de délimiteur est automatique. Les en-têtes et les lignes de données sont préservés.
JSON	30 Mo	Structure complète	Les clés d'objets, l'imbrication et les tableaux sont préservés. Seules les valeurs de chaîne contenant des PII sont modifiées.
XML	30 Mo	Structure complète	La hiérarchie des éléments, les attributs et les espaces de noms sont préservés. Les PII dans les nœuds de texte et les attributs sont détectés.
TXT	50 Mo	Texte brut	Les sauts de ligne et les espaces blancs sont préservés. Aucune mise en forme à maintenir.

Comment fonctionne l'anonymisation de fichiers

Indépendamment du format de fichier, anonym.plus suit un pipeline cohérent pour l'anonymisation de fichiers :

Ingestion de fichier. Déposez un fichier sur la zone de dépôt ou cliquez pour parcourir. Le fichier est lu entièrement sur votre machine locale — rien n'est téléchargé sur aucun serveur.
Extraction de texte. L'application utilise des analyseurs spécifiques au format pour extraire le contenu textuel. Pour PDF, cela signifie lire la couche de texte. Pour DOCX, il analyse la structure XML dans le paquet .docx. Pour XLSX, il lit les valeurs de cellule dans toutes les feuilles.
Détection PII. Le texte extrait est analysé par le moteur Presidio local combiné avec les modèles NER spaCy. Le moteur identifie les entités en fonction de votre préréglage de détection sélectionné et du seuil de confiance.
Vérification des entités. Les entités détectées sont affichées avec des badges de couleur. Vous vérifiez chaque détection, en désactivant les faux positifs ou en ajoutant des entités manquantes manuellement.
Anonymisation. Vous choisissez un opérateur (Remplacer ou Chiffrer) et cliquez sur « Anonymiser ». Le moteur applique l'opérateur à chaque entité activée dans le texte extrait.
Génération de sortie. Le texte anonymisé est écrit dans le format de fichier d'origine, en préservant la structure du document. Vous choisissez d'enregistrer en tant que nouveau fichier ou de remplacer l'original.

Ce pipeline garantit que le formatage, la mise en page et les éléments non textuels du document restent intacts tandis que tous les PII détectés sont traités selon votre opérateur choisi.

Mode Remplacer : étape par étape

Le mode Remplacer substitue définitivement chaque entité PII détectée par un espace réservé basé sur le type. C'est idéal lorsque vous devez partager des documents en externe ou créer des copies définitivement désinfectées.

Déposez votre fichier sur la zone de dépôt anonym.plus. Le type de fichier est détecté automatiquement.
Sélectionnez un préréglage de détection. Pour la plupart des flux de travail de documents, « Détection PII générale » ou « Conformité GDPR » fonctionnent bien.
Cliquez sur « Démarrer l'analyse ». L'extraction de texte et la détection PII s'exécutent localement.
Vérifiez les entités détectées dans la barre latérale. Chaque entité montre son type (par exemple, PERSON, EMAIL_ADDRESS, PHONE_NUMBER), la valeur d'origine et un score de confiance.
Définissez l'opérateur sur « Remplacer » pour chaque type d'entité, ou définissez Remplacer comme valeur par défaut globale.
Cliquez sur « Anonymiser ». Chaque valeur PII est remplacée par un espace réservé comme <PERSON> ou <EMAIL_ADDRESS>.
Choisissez votre format de sortie : même que l'entrée, PDF, DOCX ou TXT.
Cliquez sur « Enregistrer en tant que nouveau fichier » pour écrire le document anonymisé. L'original reste inchangé.

Mode Chiffrer : étape par étape

Le mode Chiffrer remplace chaque entité PII par un token chiffré AES-256-GCM. Les valeurs d'origine peuvent être récupérées ultérieurement à l'aide de la fonction Dé-anonymiser avec la clé de chiffrement correcte.

Déposez votre fichier sur la zone de dépôt.
Sélectionnez un préréglage de détection et cliquez sur « Démarrer l'analyse ».
Vérifiez les entités détectées.
Définissez l'opérateur sur « Chiffrer » et sélectionnez une clé de chiffrement de votre coffre. Si vous n'avez pas de clé, créez-en une dans Paramètres — la clé est générée localement et stockée dans votre coffre chiffré.
Cliquez sur « Anonymiser ». Chaque entité PII est chiffrée avec AES-256-GCM à l'aide d'un nonce aléatoire par entité.
Enregistrez le document chiffré. Partagez-le en toute sécurité — les destinataires ne peuvent pas lire les PII sans votre clé de chiffrement.
Lorsque vous avez besoin de restaurer les valeurs d'origine, utilisez la fonction Dé-anonymiser : déposez le fichier chiffré, et l'application correspond automatiquement les tokens chiffrés à votre historique et charge la clé correcte.

Considérations spécifiques au format

PDF

L'anonymisation des PDF fonctionne sur la couche de texte du document. L'application lit le contenu texte, les positions et les polices du PDF, applique l'anonymisation et réécrit le texte modifié. Les images, les graphiques vectoriels et les autres éléments non textuels ne sont pas modifiés. Si votre PDF a été créé à partir d'un scanner (PDF image uniquement), la couche de texte peut être vide — dans ce cas, utilisez la fonction Anonymisation d'images pour traiter les pages individuelles en images avec OCR.

Pour de meilleurs résultats avec les PDF, assurez-vous que le document a une couche de texte appropriée (la plupart des PDF créés à partir de Word, Excel ou des navigateurs Web l'ont). La taille de fichier maximale prise en charge est 50 Mo.

DOCX

Les fichiers DOCX sont des packages basés sur XML en interne. anonym.plus analyse la structure du document, traite le texte dans les paragraphes, les tableaux, les en-têtes et les pieds de page, et réécrit le contenu anonymisé tout en préservant tout le formatage : polices, styles, couleurs, puces, numérotation et mise en page. Les images et graphiques incorporés ne sont pas modifiés.

Les modifications de suivi et les commentaires contenant des PII sont également traités. La taille de fichier maximale est 30 Mo.

XLSX

L'anonymisation des feuilles de calcul traite chaque cellule individuellement dans toutes les feuilles. Le formatage des cellules (formats de nombre, couleurs, bordures), les formules et la structure de la feuille sont préservés. Les PII sont détectés dans les valeurs de texte des cellules — les cellules numériques, les dates dans les cellules formatées en date et les cellules de formule sont analysées en fonction de leur valeur affichée.

La limite est 20 Mo ou 100 000 lignes, selon ce qui est atteint en premier. Pour les très grandes feuilles de calcul, envisagez de diviser en fichiers plus petits ou d'utiliser le traitement par lots.

CSV, JSON et XML

Ces formats de données structurées sont analysés nativement. La détection de délimiteur CSV est automatique (virgule, point-virgule, tabulation ou barre verticale). Les objets JSON et les tableaux conservent leur structure — seules les valeurs de chaîne contenant des PII sont modifiées. XML préserve la hiérarchie des éléments, les attributs et les espaces de noms. Dans les trois formats, seules les valeurs de données sont anonymisées tandis que les éléments structurels restent intacts.

TXT

Les fichiers texte brut sont le format le plus simple à anonymiser. L'intégralité du contenu du fichier est traitée comme du texte, avec les sauts de ligne et les espaces blancs préservés. TXT prend en charge la taille de fichier la plus grande à 50 Mo. La sortie est toujours au format TXT.

Prêt à l'essayer vous-même ? Découvrez-le en action →

Limites connues

L'anonymisation de fichiers présente des limitations et considérations spécifiques au format :

Objets incorporés : Les images, graphiques et objets incorporés dans PDF/DOCX ne sont pas analysés pour le texte. Extraire ou anonymiser séparément.
Préservation des métadonnées : Les métadonnées de fichier (auteur, date de création) ne sont pas automatiquement supprimées. Utilisez des outils spécialisés de suppression de métadonnées si nécessaire.
OCR non inclus : Les PDFs scannés ou documents basés sur des images nécessitent un prétraitement OCR avant que l'extraction de texte fonctionne de manière fiable.