La Revisión Asistida por Tecnología (Technology Assisted Review) acelera la clasificación de grandes volúmenes de documentos en e-discovery. El corpus que se usa para entrenar el algoritmo no debe contener datos personales innecesarios, conforme al RGPD y a la LEC. anonym.plus anonimiza este corpus en su equipo antes de que el modelo predictivo lo procese, reduciendo el riesgo de exposición de datos a herramientas externas.
Cuándo se aplica
El equipo de e-discovery prepara un lote de entrenamiento para el algoritmo TAR. Los documentos semilla contienen nombres y datos de contacto que no deben exponerse al proveedor de la plataforma de clasificación.
Cómo lo resuelve anonym.plus
- Importe el corpus (PDF, DOCX, EML) en la aplicación instalada localmente.
- El motor detecta nombres, correos, teléfonos y otros identificadores en los documentos semilla.
- Examine los marcadores y preserve los términos relevantes para la clasificación temática.
- Aplique la anonimización o seudonimización a los datos personales identificados.
- Exporte el corpus anonimizado listo para importarlo en la plataforma TAR.
- Conserve el historial de anonimización para el seguimiento de la cadena de custodia.
Qué debe aportar
- El corpus TAR (PDF, DOCX, EML o carpeta de archivos).
- La operación: Anonimizar para el entrenamiento o Seudonimizar con tabla de concordancia.
- Opcional: la lista de términos clave a preservar para la clasificación.
Tipos de entidades PII detectados
| Categoría | Tipo de entidad anonym.plus | Ejemplo |
|---|---|---|
| Persona | PERSON | Directora: Pilar Estévez → [PERSONA_1] |
| Correo electrónico | EMAIL_ADDRESS | p.estevez@legal.es → [EMAIL] |
| Organización | ORGANIZATION | Mediatek Iberia SL → [ORG] |
| Fecha | DATE_TIME | reunión del 28/02/2026 → [FECHA] |
| Teléfono | PHONE_NUMBER | +34 914 567 890 → [TEL] |
| Dirección IP | IP_ADDRESS | 172.16.0.25 → [IP] |
Cumplimiento logrado
- Encuadra el tratamiento del corpus según la LEC Art. 232 (acceso a actuaciones).
- Aplica las recomendaciones del modelo EDRM para el uso de clasificación predictiva en producción.
- Sin conexión: el corpus no se comparte con el proveedor TAR sin anonimizar.
- Los archivos temporales están cifrados con AES-256-GCM.
Anonimice corpus de entrenamiento TAR sin conexión — ver planes & empezar gratis →
Límites & advertencias
La anonimización de los documentos semilla puede afectar a la precisión del modelo si los nombres propios son relevantes para la clasificación. Evalúe el impacto antes de proceder y considere la seudonimización consistente como alternativa.
Preguntas frecuentes
¿Qué es la Revisión Asistida por Tecnología (TAR)?
Es una metodología de e-discovery que usa algoritmos de aprendizaje automático para clasificar documentos relevantes con mayor eficiencia que la inspección manual.
¿La anonimización del lote de entrenamiento afecta a la calidad del modelo?
Puede afectarla si los nombres son indicadores de relevancia. La seudonimización consistente preserva los patrones sin exponer identidades reales.
¿El corpus sale del despacho durante el tratamiento?
No. Todo el proceso es local; el lote solo sale del despacho una vez anonimizado.