Cómo Anonimizar Archivos PDF, DOCX y XLSX

Formatos de Documento Soportados

anonym.plus procesa siete formatos de documento, cada uno con límites de tamaño específicos y características de preservación de estructura. La aplicación extrae texto localmente de cada formato, ejecuta detección de PII a través del motor Presidio, y produce una salida anonimizada — todo sin llamadas de red.

Formato	Tamaño Máx.	Estructura Preservada	Notas
PDF	50 MB	Solo capa de texto	El texto se extrae de la capa de texto del PDF. Los PDFs escaneados requieren preprocesamiento OCR. El diseño e imágenes se pasan sin cambios.
DOCX	30 MB	Formato completo	Párrafos, tablas, encabezados, pies de página, estilos, y fuentes se preservan. Solo se modifica el contenido de texto.
XLSX	20 MB / 100K filas	Estructura de celda	Los valores de celda, nombres de hoja, y fórmulas se preservan. El PII se detecta y reemplaza dentro del texto de celda.
CSV	30 MB	Estructura fila/columna	La detección de delimitador es automática. Encabezados y filas de datos se preservan.
JSON	30 MB	Estructura completa	Las claves de objeto, anidación, y arrays se preservan. Solo se modifican valores de cadena que contienen PII.
XML	30 MB	Estructura completa	La jerarquía de elementos, atributos, y espacios de nombres se preservan. El PII en nodos de texto y atributos se detecta.
TXT	50 MB	Texto plano	Los saltos de línea y espacios en blanco se preservan. No hay formato que mantener.

Cómo Funciona la Anonimización de Archivos

Independientemente del formato de archivo, anonym.plus sigue una canalización consistente para anonimización de archivos:

Ingesta de archivo. Suelta un archivo en la zona de colocación o haz clic para explorar. El archivo se lee completamente en tu máquina local — nada se carga a ningún servidor.
Extracción de texto. La aplicación usa analizadores específicos del formato para extraer contenido de texto. Para PDF, esto significa leer la capa de texto. Para DOCX, analiza la estructura XML dentro del paquete .docx. Para XLSX, lee valores de celda en todas las hojas.
Detección de PII. El texto extraído se analiza por el motor Presidio local combinado con modelos spaCy NER. El motor identifica entidades basadas en tu preset de detección seleccionado y umbral de confianza.
Revisión de entidades. Las entidades detectadas se muestran con insignias codificadas por color. Reviesas cada detección, desactivando falsos positivos o agregando entidades perdidas manualmente.
Anonimización. Eliges un operador (Reemplazar o Encriptar) y haces clic en "Anonimizar." El motor aplica el operador a cada entidad habilitada dentro del texto extraído.
Generación de salida. El texto anonimizado se escribe de vuelta en el formato de archivo original, preservando la estructura del documento. Eliges guardar como un archivo nuevo o reemplazar el original.

Esta canalización asegura que el formato del documento, diseño, y elementos que no son texto permanezcan intactos mientras todo el PII detectado se procesa según tu operador elegido.

Modo Reemplazar: Paso a Paso

El modo Reemplazar sustituye permanentemente cada entidad PII detectada con un marcador basado en tipo. Esto es ideal cuando necesitas compartir documentos externamente o crear copias permanentemente sanitizadas.

Suelta tu archivo en la zona de colocación de anonym.plus. El tipo de archivo se detecta automáticamente.
Selecciona un preset de detección. Para la mayoría de flujos de trabajo de documentos, "Detección General de PII" o "Cumplimiento GDPR" funcionan bien.
Haz clic en "Iniciar Análisis." La extracción de texto y detección de PII se ejecutan localmente.
Revisa las entidades detectadas en la barra lateral. Cada entidad muestra su tipo (p. ej., PERSON, EMAIL_ADDRESS, PHONE_NUMBER), el valor original, y una puntuación de confianza.
Establece el operador en "Reemplazar" para cada tipo de entidad, o establece Reemplazar como el predeterminado global.
Haz clic en "Anonimizar." Cada valor PII se reemplaza con un marcador como <PERSON> o <EMAIL_ADDRESS>.
Elige tu formato de salida: igual que entrada, PDF, DOCX, o TXT.
Haz clic en "Guardar como Nuevo Archivo" para escribir el documento anonimizado. El original permanece sin tocar.

Modo Encriptar: Paso a Paso

El modo Encriptar reemplaza cada entidad PII con un token encriptado AES-256-GCM. Los valores originales pueden recuperarse más tarde usando la característica Desanonimizar con la clave de encriptación correcta.

Suelta tu archivo en la zona de colocación.
Selecciona un preset de detección y haz clic en "Iniciar Análisis."
Revisa entidades detectadas.
Establece el operador en "Encriptar" y selecciona una clave de encriptación de tu bóveda. Si no tienes una clave, crea una en Configuración — la clave se genera localmente y se almacena en tu bóveda encriptada.
Haz clic en "Anonimizar." Cada entidad PII se encripta con AES-256-GCM usando un nonce aleatorio por entidad.
Guarda el documento encriptado. Comparte con seguridad — los destinatarios no pueden leer el PII sin tu clave de encriptación.
Cuando necesites restaurar los valores originales, usa la característica Desanonimizar: suelta el archivo encriptado, y la aplicación automáticamente empareja tokens encriptados a tu historial y carga la clave correcta.

Consideraciones Específicas del Formato

PDF

La anonimización de PDF funciona en la capa de texto del documento. La aplicación lee contenido de texto, posiciones, y fuentes del PDF, aplica anonimización, y escribe el texto modificado de vuelta. Imágenes, gráficos vectoriales, y otros elementos que no son texto no se modifican. Si tu PDF fue creado de un escáner (PDF solo imagen), la capa de texto puede estar vacía — en ese caso, usa la característica de Anonimización de Imágenes para procesar páginas individuales como imágenes con OCR.

Para mejores resultados con PDFs, asegúrate de que el documento tiene una capa de texto adecuada (la mayoría de PDFs creados de Word, Excel, o navegadores web la tienen). El tamaño máximo de archivo soportado es 50 MB.

DOCX

Los archivos DOCX son internamente paquetes basados en XML. anonym.plus analiza la estructura del documento, procesa texto dentro de párrafos, tablas, encabezados, y pies de página, y escribe el contenido anonimizado de vuelta mientras preserva todo el formato: fuentes, estilos, colores, viñetas, numeración, y diseño de página. Las imágenes y gráficos incrustados no se modifican.

Los cambios de rastreo y comentarios que contienen PII también se procesan. El tamaño máximo de archivo es 30 MB.

XLSX

La anonimización de hojas de cálculo procesa cada celda individualmente a través de todas las hojas. El formato de celda (formatos de número, colores, bordes), fórmulas, y estructura de hoja se preservan. El PII se detecta dentro de valores de texto de celda — celdas numéricas, fechas en celdas con formato de fecha, y celdas de fórmula se analizan basándose en su valor mostrado.

El límite es 20 MB o 100,000 filas, lo que se alcance primero. Para hojas de cálculo muy grandes, considera dividirlas en archivos más pequeños o usar procesamiento por lotes.

CSV, JSON, y XML

Estos formatos de datos estructurados se analizan nativamente. La detección de delimitador CSV es automática (coma, punto y coma, tabulación, o tubería). Los objetos y arrays JSON mantienen su estructura — solo se modifican valores de cadena que contienen PII. XML preserva la jerarquía de elementos, atributos, y espacios de nombres. En los tres formatos, solo se anonimizan los valores de datos mientras los elementos estructurales permanecen intactos.

TXT

Los archivos de texto plano son el formato más simple de anonimizar. El contenido del archivo completo se trata como texto, con saltos de línea y espacios en blanco preservados. TXT soporta el tamaño de archivo más grande en 50 MB. La salida siempre es formato TXT.

¿Listo para intentarlo? Míralo en acción →

Limitaciones conocidas

La anonimización de archivos tiene limitaciones y consideraciones específicas del formato:

Objetos incrustados: Las imágenes, gráficos y objetos incrustados en PDF/DOCX no se analizan para texto. Extraiga o anonimice por separado.
Preservación de metadatos: Los metadatos del archivo (autor, fecha de creación) no se eliminan automáticamente. Use herramientas especializadas de eliminación de metadatos si es necesario.
OCR no incluido: Los PDFs escaneados o documentos basados en imágenes requieren preprocesamiento OCR antes de que la extracción de texto funcione de manera confiable.