El Desafío
Un equipo de IA empresarial está ajustando un LLM de servicio al cliente usando 18 meses de datos de tickets de soporte. El conjunto de datos contiene 240.000 registros JSON con nombres de clientes, direcciones de correo electrónico, números de cuenta, números de serie de productos, y descripciones de texto libre que incluyen PII. EU AI Act (Art. 10, efectivo agosto 2026) requiere prácticas de gobernanza de datos asegurando datos de entrenamiento estén libres de datos personales innecesarios para aplicaciones de IA de alto riesgo. Cargar el conjunto de datos a un servicio de anonimización en la nube crearía por sí mismo una violación GDPR — los datos deben permanecer dentro del centro de datos EU de la empresa.
La Solución
El equipo de ingeniería de ML instala anonym.plus en una estación de trabajo dentro del centro de datos EU. Dividen el conjunto de datos de 240K registros en 120 archivos JSONL de 2.000 registros cada uno (promedio 25 MB por archivo). Usando Modo Lote con 5 workers paralelos, procesan los 120 archivos durante aproximadamente 90 minutos. Un preajuste personalizado usa: PERSON, EMAIL_ADDRESS, PHONE_NUMBER, IBAN_CODE, IP_ADDRESS, CREDIT_CARD, y una entidad personalizada para números de serie de producto (regex: SN-[A-Z0-9]{10}). El operador Replace asegura anonimización irreversible. El historial de procesamiento se exporta como CSV para documentación técnica de Art. 11.
Los Resultados
- 240.000 registros anonimizados — 6 categorías de PII + 1 entidad personalizada procesada en 90 minutos
- Conjunto de datos anonimizado sale del alcance GDPR — no base legal requerida para entrenamiento, derechos de sujetos de datos no aplican
- Requisito de gobernanza de datos EU AI Act Art. 10 cumplido — documentado en archivo técnico
- Datos de entrenamiento nunca salieron del centro de datos EU — residencia de datos completa mantenida
- No DPA requerido con proveedor de infraestructura de entrenamiento — solo datos anonimizados
- CSV de historial de procesamiento proporciona auditoría para documentación técnica de Art. 11
Formatos de Datos de Entrenamiento Soportados
- JSON / JSONL — conjuntos de datos de ajuste de instrucciones, conversaciones de chat, archivos de anotación (30 MB por archivo)
- CSV — datos de entrenamiento tabulares, ejemplos etiquetados, conjuntos de evaluación (30 MB)
- TXT — corpus de pre-entrenamiento, colecciones de documentos sin procesar (50 MB)
- XLSX — conjuntos de datos anotados por humanos, hojas de puntuación (20 MB / 100K filas)
- PDF / DOCX — corpus de clasificación de documentos, documentos de base de conocimiento
Para conjuntos de datos más grandes que límites por archivo, dividir en bloques y procesar con Modo Lote. Hasta 20 archivos procesados simultáneamente con plan Pro.
Documentación EU AI Act Art. 10
Después de anonimar datos de entrenamiento, documentar lo siguiente en archivo técnico del sistema de IA (Art. 11):
- Práctica de gobernanza de datos: PII eliminado de datos de entrenamiento usando anonym.plus [versión], operador Replace, preajuste Cumplimiento GDPR
- Tipos de entidad detectados y eliminados: [lista de exportación de historial de procesamiento]
- Fecha de procesamiento y versión de conjunto de datos: [timestamp de historial]
- Evaluación de riesgo residual: El operador Replace produce verdadera anonimización (GDPR Considerando 26); re-identificación no es posible desde datos de salida
- Residencia de datos: Procesamiento realizado localmente en infraestructura EU; ningún dato transferido fuera del centro de datos
Lee la guía completa EU AI Act. Cumplimiento EU AI Act Art. 10 →
Preguntas Frecuentes
¿Cómo elimino PII de datos de entrenamiento de IA para cumplimiento GDPR y EU AI Act?
Cargar archivos de entrenamiento (JSON, CSV, TXT, XLSX) en anonym.plus. Seleccionar preajuste Cumplimiento GDPR o configurar tipos de entidad. Elegir operador Replace para anonimización permanente. Procesar en Modo Lote para grandes conjuntos de datos. Salida anonimizada sale del alcance GDPR y cumple requisitos de gobernanza de datos EU AI Act Art. 10.
¿Procesa anonym.plus formato JSONL de conjuntos de datos de entrenamiento?
Sí. Archivos JSON y JSONL (30 MB) están soportados. anonym.plus analiza campos de texto y reemplaza PII detectado con etiquetas. La estructura se preserva — archivo JSONL permanece válido para pipelines de entrenamiento después de anonimización.