Cas d'usage : Données de formation IA/ML

Anonymiser les jeux de données de formation pour la conformité à la Directive UE sur l'IA Art. 10 et au RGPD — entièrement hors ligne.

Le Défi

Défi

Une équipe d'IA d'entreprise ajuste les paramètres d'un LLM de service client à l'aide de 18 mois de données de tickets d'assistance. L'ensemble de données contient 240 000 enregistrements JSON avec des noms de clients, des adresses e-mail, des numéros de compte, des numéros de série de produits et des descriptions de texte libre qui incluent des données personnelles. La Directive UE sur l'IA (Art. 10, en vigueur en août 2026) exige des pratiques de gouvernance des données garantissant que les données de formation sont exemptes de données personnelles inutiles pour les applications d'IA à haut risque. Le téléchargement de l'ensemble de données vers un service cloud d'anonymisation créerait lui-même une violation du RGPD — les données doivent rester dans le centre de données UE de l'entreprise.

La Solution

Solution

L'équipe d'ingénierie ML installe anonym.plus sur un poste de travail dans le centre de données UE. Ils divisent le jeu de données de 240K enregistrements en 120 fichiers JSONL de 2 000 enregistrements chacun (environ 25 Mo par fichier). En utilisant le mode Batch avec 5 workers parallèles, ils traitent les 120 fichiers pendant environ 90 minutes. Un préréglage personnalisé utilise : PERSON, EMAIL_ADDRESS, PHONE_NUMBER, IBAN_CODE, IP_ADDRESS, CREDIT_CARD et une entité personnalisée pour les numéros de série de produits (regex : SN-[A-Z0-9]{10}). L'opérateur Replace garantit une anonymisation irréversible. L'historique du traitement est exporté au format CSV pour la documentation technique Art. 11.

Les Résultats

Résultat
  • 240 000 enregistrements anonymisés — 6 catégories de données personnelles + 1 entité personnalisée traitées en 90 minutes
  • L'ensemble de données anonymisé sort de l'étendue du RGPD — aucune base juridique requise pour la formation, aucun droit du sujet ne s'applique
  • L'exigence de gouvernance des données de la Directive UE sur l'IA Art. 10 satisfaite — documentée dans le fichier technique
  • Les données de formation n'ont jamais quitté le centre de données UE — résidence complète des données maintenue
  • Aucun accord DPA requis avec le fournisseur d'infrastructure de formation — données anonymisées uniquement
  • CSV d'historique du traitement fournit une piste d'audit pour la documentation technique Art. 11

Formats de données de formation pris en charge

Pour les jeux de données plus volumineux que les limites par fichier, divisez en sections et traitez avec le mode Batch. Jusqu'à 20 fichiers traités simultanément avec le plan Pro.

Documentation de la Directive UE sur l'IA Art. 10

Après l'anonymisation des données de formation, documentez les éléments suivants dans le fichier technique du système d'IA (Art. 11) :

Lire le guide complet sur la Directive UE sur l'IA. Directive UE sur l'IA Art. 10 conformité →

Questions fréquemment posées

Comment supprimer les données personnelles des données de formation IA pour la conformité RGPD et à la Directive UE sur l'IA ?

Chargez les fichiers de formation (JSON, CSV, TXT, XLSX) dans anonym.plus. Sélectionnez le préréglage de conformité RGPD ou configurez les types d'entité. Choisissez l'opérateur Replace pour l'anonymisation permanente. Traitez en mode Batch pour les grands jeux de données. La sortie anonymisée sort de l'étendue du RGPD et répond aux exigences de gouvernance des données de la Directive UE sur l'IA Art. 10.

anonym.plus traite-t-il le format de données de formation JSONL ?

Oui. Les fichiers JSON et JSONL (30 Mo) sont pris en charge. anonym.plus analyse les champs de texte et remplace les données personnelles détectées par des labels. La structure est préservée — le fichier JSONL reste valide pour les pipelines de formation après anonymisation.