Glosario
Términos clave para la detección de PII, anonimización de documentos y cifrado.
Este glosario define los términos técnicos utilizados en toda la documentación, arquitectura de seguridad e interfaz de usuario de anonym.plus. Los términos son relevantes para la detección de PII, NLP, criptografía y regulaciones de privacidad de datos.
A
AES-256-GCM
Estándar de Cifrado Avanzado con claves de 256 bits en modo Galois/Counter. Un algoritmo de cifrado autenticado que proporciona tanto confidencialidad como integridad. Utilizado por anonym.plus para el cifrado del vault y la anonimización reversible de documentos.
Anonimización
El proceso de eliminar, reemplazar u ocultar información de identificación personal (PII) en documentos para que los individuos no puedan ser reidentificados. anonym.plus ofrece cinco métodos: replace, redact, mask, hash y encrypt.
Argon2id
Una función de hash de contraseñas y derivación de claves con uso intensivo de memoria. Combina Argon2i (resistente a canales laterales) y Argon2d (resistente a GPU). anonym.plus utiliza Argon2id con 64 MB de costo de memoria y 3 iteraciones para derivar claves de cifrado del vault a partir de contraseñas de usuario.
B
Procesamiento por lotes
Procesamiento simultáneo de múltiples archivos a través del pipeline de anonimización. anonym.plus soporta de 1 a 5 archivos en paralelo con manejo de errores configurable y modo de aprobación automática. Requiere licencia Pro.
BIP39 (Bitcoin Improvement Proposal 39)
Un estándar para generar frases mnemónicas de recuperación a partir de entropía aleatoria. anonym.plus genera una frase BIP39 de 24 palabras (256 bits de entropía) durante la configuración del vault como único mecanismo de recuperación si el usuario olvida su PIN.
C
Umbral de confianza
Una puntuación (0,50 a 1,00) que controla cuán seguro debe estar el motor de detección antes de reportar una entidad PII. Umbrales más bajos capturan más entidades pero aumentan los falsos positivos. Los presets financieros usan 0,95; los presets de desarrollo usan 0,70.
Entidad personalizada
Un tipo de PII definido por el usuario mediante patrones regex. anonym.plus soporta hasta 50 entidades personalizadas con hasta 10 patrones cada una, palabras de contexto y validación segura contra ReDoS. Se detectan junto con los más de 200 tipos integrados.
D
Desanonimización
El proceso inverso de restaurar los valores originales de PII en un documento anonimizado. Solo es posible cuando se utilizó el operador encrypt (AES-256-GCM). Replace, redact, mask y hash son irreversibles por diseño. anonym.plus soporta coincidencia automática con el historial de procesamiento.
Configuración de detección
Una configuración guardada que especifica qué tipos de entidad detectar, el umbral de confianza y operadores opcionales por entidad. anonym.plus incluye 121 presets integrados en 7 categorías: Auto, Específico por país, Regional, Técnico/DevSecOps, Industria, Salud y Finanzas.
E
E-E-A-T (Experience, Expertise, Authoritativeness, Trustworthiness)
Marco de evaluación de calidad de Google para contenido web. Demuestra que los creadores de contenido tienen experiencia directa y conocimiento especializado en su área temática.
Operador de cifrado
Un método de anonimización que reemplaza PII con texto cifrado AES-256-GCM. A diferencia de replace, redact, mask o hash, las entidades cifradas pueden descifrarse posteriormente usando la misma clave — habilitando el flujo de trabajo "cifrar, compartir, editar, descifrar".
Tipo de entidad
Una categoría de PII que el motor de detección puede identificar. Ejemplos: PERSON, EMAIL_ADDRESS, US_SSN, CREDIT_CARD, DE_TAX_ID. anonym.plus detecta más de 200 tipos de entidad en 18 grupos.
G
RGPD (Reglamento General de Protección de Datos)
Regulación de la UE que rige el procesamiento de datos personales. Requiere minimización de datos, limitación de propósito y protección de datos personales. anonym.plus ayuda a las organizaciones a cumplir detectando y eliminando PII antes de compartir documentos.
H
Operador de hash
Un método de anonimización que reemplaza PII con un hash criptográfico unidireccional (SHA-256, SHA-512 o MD5). Irreversible — el valor original no puede recuperarse. Útil cuando se necesita pseudonimización consistente (la misma entrada siempre produce el mismo hash).
HIPAA (Health Insurance Portability and Accountability Act)
Ley federal de EE. UU. que protege la información sensible de salud del paciente (PHI). Requiere que las entidades cubiertas implementen salvaguardas para datos de salud electrónicos. anonym.plus incluye presets de detección específicos para HIPAA.
K
Derivación de clave
El proceso de generar claves criptográficas a partir de una contraseña o frase de paso. anonym.plus utiliza Argon2id para derivar una clave AES de 256 bits a partir de la contraseña del vault del usuario, haciendo que los ataques de fuerza bruta sean computacionalmente costosos.
Rotación de clave
Reemplazo de una clave de cifrado por una nueva. En anonym.plus, rotar una clave reemplaza permanentemente el material de clave anterior. Los documentos cifrados con la clave anterior requieren el valor de la clave anterior para la desanonimización.
L
LLM (Large Language Model)
Un modelo de IA entrenado en grandes corpus de texto que puede generar y comprender lenguaje humano. Ejemplos: ChatGPT, Claude, Gemini. anonym.plus ayuda a los usuarios a redactar datos sensibles antes de enviar texto a LLMs.
M
Operador de máscara
Un método de anonimización que oculta parcialmente PII reemplazando caracteres con un carácter de máscara (predeterminado: *). Cantidad de máscara configurable. Ejemplo: "4111-1111-1111" se convierte en "XXXX-XXXX-1111". Irreversible.
MCP (Model Context Protocol)
Un estándar abierto (de Anthropic) para conectar herramientas de IA con fuentes de datos y servicios externos. anonym.plus incluye un servidor MCP que anonimiza automáticamente el texto antes de que llegue a herramientas de IA como Cursor o Claude Desktop, y restaura los valores originales en las respuestas.
N
NER (Named Entity Recognition)
Una técnica de procesamiento de lenguaje natural (NLP) que identifica y clasifica entidades nombradas (personas, lugares, organizaciones, fechas) en texto. anonym.plus utiliza modelos NER de spaCy combinados con los reconocedores basados en regex de Presidio para detección híbrida.
NLP (Natural Language Processing)
Un campo de la IA que se ocupa de la interacción entre computadoras y lenguaje humano. anonym.plus utiliza NLP a través de spaCy para comprender el contexto del texto y detectar entidades PII que los patrones regex simples pasarían por alto.
O
OCR (Optical Character Recognition)
Tecnología que extrae texto de imágenes. anonym.plus utiliza Tesseract OCR para extraer texto de imágenes PNG, JPG, BMP y TIFF con cuadros delimitadores a nivel de carácter, permitiendo la redacción de PII directamente en la imagen. Soporta 38 idiomas OCR.
Operador
Un método de anonimización aplicado a una entidad PII detectada. anonym.plus soporta cinco operadores: replace, redact, mask, hash y encrypt. Cada uno puede configurarse por tipo de entidad dentro de un preset de detección.
P
PHI (Protected Health Information)
Datos relacionados con la salud que pueden identificar a un individuo, protegidos bajo HIPAA. Incluye registros médicos, resultados de laboratorio, información de seguros y cualquier dato de salud vinculado a una persona específica.
PII (Personally Identifiable Information)
Cualquier dato que pueda utilizarse para identificar a un individuo específico. Incluye nombres, direcciones de correo electrónico, números de teléfono, números de seguro social, números de pasaporte, direcciones IP y números de cuentas financieras. anonym.plus detecta más de 200 tipos de entidad PII.
Presidio
Un framework de código abierto para detección y anonimización de PII de Microsoft. Combina NER basado en NLP con reconocedores de patrones regex configurables. anonym.plus incluye Presidio como proceso sidecar local — no se realizan llamadas a APIs en la nube.
R
Operador de redacción
Un método de anonimización que elimina completamente el texto PII, reemplazándolo con caracteres de bloque (ej., "john@mail.com" se convierte en "███████"). Irreversible. No deja rastro del valor original.
Operador de reemplazo
Un método de anonimización que sustituye PII con un marcador de posición tipado. Ejemplo: "John Smith" se convierte en "<PERSON>". El operador predeterminado y más utilizado. Irreversible — el valor original no se almacena.
S
Sidecar
Un proceso complementario que se ejecuta junto a la aplicación principal. anonym.plus utiliza un proceso sidecar en Python para ejecutar Presidio y spaCy para la detección de PII. La comunicación se realiza a través de una interfaz HTTP local con autenticación basada en tokens.
spaCy
Una biblioteca NLP de código abierto para procesamiento avanzado de lenguaje natural. Proporciona los modelos NER (reconocimiento de entidades nombradas) que anonym.plus utiliza para detectar nombres de personas, ubicaciones, organizaciones y fechas en texto. 23 modelos de idioma disponibles.
T
Tauri
Un framework para construir aplicaciones de escritorio con tecnologías web (HTML/CSS/JS) y un backend en Rust. anonym.plus utiliza Tauri para su aplicación de escritorio, con Rust manejando el cifrado, E/S de archivos y operadores de anonimización.
Tesseract
Un motor OCR de código abierto mantenido por Google. anonym.plus incluye Tesseract para extraer texto de imágenes con datos de cuadros delimitadores a nivel de carácter, permitiendo la redacción precisa de PII en documentos escaneados y fotos.
V
Bóveda
El almacenamiento local cifrado de anonym.plus para datos sensibles, incluyendo claves de cifrado, historial de procesamiento, presets y credenciales. Protegido con cifrado AES-256-GCM, derivación de claves Argon2id y un PIN opcional o frase de recuperación BIP39 de 24 palabras.
Z
Arquitectura de conocimiento cero
Un diseño de sistema donde el servidor no puede acceder a los datos del usuario incluso si es comprometido. En anonym.plus, las contraseñas se hashean del lado del cliente antes de la transmisión, las claves de cifrado nunca salen del vault local, y el frontend referencia las claves solo por ID — el material de clave real permanece en el backend Rust.
Referencias
- Microsoft Presidio — Framework de detección de PII
- spaCy — Biblioteca NLP para reconocimiento de entidades nombradas
- Texto completo del RGPD — Reglamento General de Protección de Datos
- HIPAA — Departamento de Salud y Servicios Humanos de EE. UU.
- Model Context Protocol — Especificación MCP
35 términos definidos. Véase también: Referencia de Tipos de Entidad y Documentación.