Clasificación de datos para flujos de trabajo de IA: Público, Interno, Confidencial, Restringido

Los LLM no entienden la sensibilidad de los datos. Sin etiquetas de clasificación en las bases de conocimiento, los flujos de trabajo de IA tratan todo el contenido por igual — filtrando datos restringidos en las respuestas. Así es como JieGou aplica la sensibilidad en la capa de recuperación RAG.

JieGou Team · 3 de marzo de 2026 · 7 min de lectura

Los LLM no saben qué es confidencial

Los modelos de lenguaje grandes no tienen concepto de sensibilidad de datos. Alimente a un LLM con una mezcla de textos de marketing públicos y actas restringidas de la junta directiva, y felizmente entrelazará ambos en una respuesta. No sabe que uno es compartible con el mundo y el otro está limitado a tres ejecutivos nombrados.

Esto está bien para asistentes de IA personales. Es un problema serio para flujos de trabajo de IA empresariales.

Cuando las organizaciones conectan bases de conocimiento a la IA — agentes de soporte al cliente extrayendo de documentos internos, asistentes de ventas referenciando estrategias de precios, bots de RRHH respondiendo preguntas de políticas — cada pieza de contenido recuperado se convierte en salida potencial del LLM. Sin clasificación de datos, no hay frontera entre lo que una IA puede acceder y lo que debería acceder.

La mayoría de las plataformas de IA ignoran esto completamente. Se conectan a sus fuentes de datos y recuperan lo que sea semánticamente relevante. La relevancia no es lo mismo que la autorización.

Los cuatro niveles de sensibilidad

JieGou implementa un sistema de clasificación de datos de cuatro niveles en cada base de conocimiento, alineado con marcos de seguridad de la información ampliamente adoptados:

Público (Verde)

Contenido que puede compartirse con cualquiera — clientes, socios, el público general. Materiales de marketing, documentación pública, publicaciones de blog publicadas. Sin restricciones de recuperación.

Interno (Azul)

Contenido para consumo de toda la empresa. Documentación de procesos internos, manuales de equipo, anuncios generales. Cualquier usuario autenticado dentro de la organización puede acceder a esto a través de flujos de trabajo de IA.

Confidencial (Ámbar)

Contenido restringido a departamentos o equipos específicos. Proyecciones financieras, análisis competitivo, hojas de ruta de producto, investigaciones de RRHH. Solo los usuarios con acceso departamental correspondiente pueden recuperar fragmentos de bases de conocimiento confidenciales.

Restringido (Rojo)

Contenido limitado a individuos nombrados. Materiales de la junta directiva, documentos de M&A, datos de compensación ejecutiva, materiales bajo retención legal. El acceso se otorga explícitamente por usuario. Este es el nivel de sensibilidad más alto, y la recuperación requiere tanto verificación de identidad del usuario como membresía explícita en la lista de acceso.

Aplicación en la capa de recuperación RAG

Aquí está la decisión de diseño crítica: JieGou aplica las etiquetas de sensibilidad antes de que el contenido llegue al LLM, no después.

La mayoría de las plataformas que intentan gobernanza de datos la aplican como un filtro de post-procesamiento — el LLM genera una respuesta usando todo el contexto disponible, y luego un filtro verifica si la salida contiene información sensible. Esto está fundamentalmente roto. Una vez que el contenido restringido entra en la ventana de contexto del LLM, influye en la respuesta incluso si las frases específicas se eliminan. El modelo ya ha “visto” los datos.

El enfoque de JieGou es diferente. Cuando se ejecuta una consulta RAG:

Se resuelve la identidad del usuario — el rol, departamento y concesiones de acceso explícitas del usuario solicitante se cargan
Se verifican las etiquetas de sensibilidad de la base de conocimiento — cada KB conectada tiene un nivel de clasificación
Se produce el filtrado pre-recuperación — los fragmentos de bases de conocimiento por encima del nivel de autorización del usuario se excluyen de la búsqueda vectorial completamente
Solo contenido autorizado entra en la ventana de contexto — el LLM nunca ve datos restringidos que no debería

Esto significa que un agente de soporte consultando la base de conocimiento recuperará contenido Público e Interno pero nunca verá documentos confidenciales de RRHH o materiales restringidos de la junta directiva — incluso si esos documentos son semánticamente relevantes para la consulta.

Pista de auditoría para filtrado de sensibilidad

Cada evento de filtrado de sensibilidad se registra en la pista de auditoría inmutable de JieGou:

Qué usuario inició la consulta
Qué bases de conocimiento se filtraron y por qué
El nivel de sensibilidad que activó la exclusión
Marca de tiempo e ID de correlación de solicitud

Esto importa para el cumplimiento. Cuando los auditores preguntan “¿cómo aseguran que los flujos de trabajo de IA no expongan datos restringidos?”, la respuesta no es un documento de política — es un registro consultable de cada acción de aplicación.

Cómo lo manejan otras plataformas

Capacidad	Plataforma de IA típica	JieGou
Etiquetas de clasificación de datos	Ninguna	4 niveles (Público, Interno, Confidencial, Restringido)
Sensibilidad por base de conocimiento	No disponible	Configurada por KB
Filtrado pre-recuperación	No — solo post-procesamiento	Sí — fragmentos excluidos antes del contexto del LLM
Coincidencia de autorización del usuario	Sin control de acceso a datos a nivel de usuario	Rol + departamento + concesiones explícitas
Pista de auditoría de sensibilidad	Sin registro	Registro inmutable por evento de filtrado
Listas de acceso por individuo nombrado	No soportado	Soportado a nivel Restringido

La mayoría de las plataformas tratan todos los datos conectados como igualmente accesibles. Algunas ofrecen acceso básico basado en roles a funcionalidades completas, pero ninguna aplica clasificación de sensibilidad a nivel de base-de-conocimiento-a-pipeline-RAG.

Parte de la pila de gobernanza de 10 capas

La clasificación de datos es una capa en la arquitectura de gobernanza de JieGou. Funciona junto con — no en aislamiento de — las otras nueve capas:

Umbrales de confianza — salidas de baja confianza escaladas antes de llegar a los usuarios
Puertas de aprobación — acciones sensibles pausadas para revisión humana
Detección de PII — información personal tokenizada antes del procesamiento del LLM
Escalamiento de confianza — agentes ganan autonomía basada en historial de rendimiento
Gobernanza de voz de marca — salidas coinciden con directrices de voz organizacional
RBAC con alcance departamental — 6 roles, 20 permisos, aislamiento departamental
Clasificación de datos — el sistema de sensibilidad de 4 niveles descrito aquí
Pistas de auditoría — cada decisión registrada con trazabilidad completa
Monitoreo de calidad — puntuación continua con detección de desviación
Controles de cumplimiento — 412 políticas + 17 controles TSC

Estas capas se componen. Una consulta podría pasar los umbrales de confianza pero ser filtrada por la clasificación de datos. Una salida podría pasar las verificaciones de sensibilidad pero ser detenida en una puerta de aprobación. La defensa en profundidad significa que ninguna capa individual lleva toda la carga.

Por qué esto importa ahora

A medida que las organizaciones escalan la IA más allá de chatbots simples hacia flujos de trabajo departamentales — automatizando clasificación de soporte, habilitación de ventas, procesos de RRHH, análisis financiero — los datos que fluyen a través de estos sistemas se vuelven cada vez más sensibles. La brecha entre “semánticamente relevante” y “autorizado para este usuario” se convierte en una responsabilidad.

La clasificación de datos para flujos de trabajo de IA no es un complemento deseable. Es la diferencia entre una plataforma de IA en la que puede confiar con datos empresariales reales y una que está limitada a casos de uso orientados al público.

Explore la pila de gobernanza de JieGou | Conozca la gestión de bases de conocimiento