Le Défi
Une équipe d'IA d'entreprise ajuste les paramètres d'un LLM de service client à l'aide de 18 mois de données de tickets d'assistance. L'ensemble de données contient 240 000 enregistrements JSON avec des noms de clients, des adresses e-mail, des numéros de compte, des numéros de série de produits et des descriptions de texte libre qui incluent des données personnelles. La Directive UE sur l'IA (Art. 10, en vigueur en août 2026) exige des pratiques de gouvernance des données garantissant que les données de formation sont exemptes de données personnelles inutiles pour les applications d'IA à haut risque. Le téléchargement de l'ensemble de données vers un service cloud d'anonymisation créerait lui-même une violation du RGPD — les données doivent rester dans le centre de données UE de l'entreprise.
La Solution
L'équipe d'ingénierie ML installe anonym.plus sur un poste de travail dans le centre de données UE. Ils divisent le jeu de données de 240K enregistrements en 120 fichiers JSONL de 2 000 enregistrements chacun (environ 25 Mo par fichier). En utilisant le mode Batch avec 5 workers parallèles, ils traitent les 120 fichiers pendant environ 90 minutes. Un préréglage personnalisé utilise : PERSON, EMAIL_ADDRESS, PHONE_NUMBER, IBAN_CODE, IP_ADDRESS, CREDIT_CARD et une entité personnalisée pour les numéros de série de produits (regex : SN-[A-Z0-9]{10}). L'opérateur Replace garantit une anonymisation irréversible. L'historique du traitement est exporté au format CSV pour la documentation technique Art. 11.
Les Résultats
- 240 000 enregistrements anonymisés — 6 catégories de données personnelles + 1 entité personnalisée traitées en 90 minutes
- L'ensemble de données anonymisé sort de l'étendue du RGPD — aucune base juridique requise pour la formation, aucun droit du sujet ne s'applique
- L'exigence de gouvernance des données de la Directive UE sur l'IA Art. 10 satisfaite — documentée dans le fichier technique
- Les données de formation n'ont jamais quitté le centre de données UE — résidence complète des données maintenue
- Aucun accord DPA requis avec le fournisseur d'infrastructure de formation — données anonymisées uniquement
- CSV d'historique du traitement fournit une piste d'audit pour la documentation technique Art. 11
Formats de données de formation pris en charge
- JSON / JSONL — jeux de données d'ajustement des instructions, conversations de chat, fichiers d'annotation (30 Mo par fichier)
- CSV — données de formation tabulaires, exemples étiquetés, ensembles d'évaluation (30 Mo)
- TXT — corpus de pré-formation, collections de documents bruts (50 Mo)
- XLSX — jeux de données annotés manuellement, feuilles de notation (20 Mo / 100K lignes)
- PDF / DOCX — corpus de classification de documents, documents de base de connaissances
Pour les jeux de données plus volumineux que les limites par fichier, divisez en sections et traitez avec le mode Batch. Jusqu'à 20 fichiers traités simultanément avec le plan Pro.
Documentation de la Directive UE sur l'IA Art. 10
Après l'anonymisation des données de formation, documentez les éléments suivants dans le fichier technique du système d'IA (Art. 11) :
- Pratique de gouvernance des données : Données personnelles supprimées des données de formation à l'aide d'anonym.plus [version], opérateur Replace, préréglage de conformité RGPD
- Types d'entités détectés et supprimés : [list from processing history export]
- Date de traitement et version de l'ensemble de données : [timestamp from history]
- Évaluation du risque résiduel : L'opérateur Replace produit une véritable anonymisation (Considérant 26 du RGPD) ; la ré-identification n'est pas possible à partir des données de sortie
- Résidence des données : Le traitement a été effectué localement sur l'infrastructure UE ; aucune donnée transférée en dehors du centre de données
Lire le guide complet sur la Directive UE sur l'IA. Directive UE sur l'IA Art. 10 conformité →
Questions fréquemment posées
Comment supprimer les données personnelles des données de formation IA pour la conformité RGPD et à la Directive UE sur l'IA ?
Chargez les fichiers de formation (JSON, CSV, TXT, XLSX) dans anonym.plus. Sélectionnez le préréglage de conformité RGPD ou configurez les types d'entité. Choisissez l'opérateur Replace pour l'anonymisation permanente. Traitez en mode Batch pour les grands jeux de données. La sortie anonymisée sort de l'étendue du RGPD et répond aux exigences de gouvernance des données de la Directive UE sur l'IA Art. 10.
anonym.plus traite-t-il le format de données de formation JSONL ?
Oui. Les fichiers JSON et JSONL (30 Mo) sont pris en charge. anonym.plus analyse les champs de texte et remplace les données personnelles détectées par des labels. La structure est préservée — le fichier JSONL reste valide pour les pipelines de formation après anonymisation.