RAG Privado & Asistente IA Local | LLM On-Premise | Lexiane
RAG air-gapped real: Mistral.rs, embeddings Candle, búsqueda híbrida — todo en un binario. Sin conexiones salientes. Conforme RGPD, DORA, IEC 62304.
Las organizaciones que tratan datos sensibles se enfrentan a una contradicción aparente: los sistemas de inteligencia artificial más capaces suponen una conexión a servicios cloud, mientras que sus restricciones regulatorias, operacionales, o estratégicas imponen que sus datos permanezcan en local. La mayoría de las soluciones proponen resolver esta contradicción mediante un contrato — una cláusula de confidencialidad, un compromiso de no utilización de los datos, una etiqueta de conformidad.
Lexiane la resuelve por arquitectura.
En modo RAG privado, la totalidad del tratamiento documental — parsing, chunking, vectorización, inferencia LLM, almacenamiento, recuperación, generación — se ejecuta en un único binario, en su infraestructura, sin que un solo byte de sus documentos cruce su perímetro de red. No es una política. Es una propiedad física del sistema.
Lo que “privado” realmente significa
El mercado de la IA ha diluido progresivamente el significado de la palabra “privado”. Es útil restablecer distinciones precisas, ya que tienen consecuencias jurídicas, operacionales y regulatorias concretas.
Solución cloud con compromisos de confidencialidad. Sus datos se tratan en la infraestructura de un proveedor tercero — en su zona geográfica, en sus servidores, por sus modelos. El proveedor se compromete contractualmente a no utilizar sus datos para entrenar sus modelos, a conservarlos en una región definida, a eliminarlos bajo petición. La garantía se basa en la confianza en el respeto del contrato, en la capacidad de auditoría para detectar una violación, y en la estabilidad de las condiciones de uso en el tiempo.
Solución on-premise con llamadas de inferencia externas. La infraestructura está en su datacenter. Pero el modelo de lenguaje está alojado en una API externa — OpenAI, Anthropic, o un servicio cloud de su proveedor de solución. Sus documentos se trocean y vectorizan en local, pero los fragmentos de contexto se transmiten al LLM externo en cada generación. Los datos no residen en un tercero, pero transitan por él en cada petición.
Verdadero air-gapped — ningún flujo saliente. La infraestructura está en su perímetro. El modelo de lenguaje funciona en su perímetro. Los embeddings se calculan en su perímetro. El almacenamiento vectorial está en su perímetro. No hay llamada de red saliente — no porque un firewall la bloquee, sino porque el sistema estructuralmente no realiza ninguna. Sus datos no pueden salir de su perímetro, incluso en caso de error de configuración del firewall.
El RAG privado de Lexiane es la tercera categoría. La garantía no es contractual. Es arquitectural — y verificable.
La pila local completa
Un RAG verdaderamente privado requiere que cada componente del pipeline disponga de una implementación local. No es suficiente almacenar los datos en local si la inferencia llama a un servicio externo. No es suficiente tener un LLM local si los embeddings se calculan vía una API cloud. Lexiane es el único motor RAG que compila la totalidad de la pila en un único binario.
Inferencia LLM local — Mistral.rs
Mistral.rs es un motor de inferencia LLM de alto rendimiento escrito en Rust, compilado directamente en el binario Lexiane. No hay proceso Ollama en paralelo, no hay servidor vLLM separado, no hay llamada HTTP interna — la inferencia está en el binario, al igual que el resto del pipeline.
Mistral.rs soporta los modelos de la familia Mistral, LLaMA 3, Phi, y sus derivados cuantizados (GGUF, GGML). La cuantización permite ejecutar modelos de 7B a 13B parámetros en servidores sin GPU dedicada — con un rendimiento de generación satisfactorio para la mayoría de los casos de uso documentales. Con una GPU NVIDIA o AMD, los mismos modelos alcanzan tasas de generación comparables a las de APIs cloud estándar.
La elección del modelo es una decisión de configuración, no de código. Cambiar de modelo local no modifica el pipeline — modifica el archivo TOML y los archivos de modelos cargados al arranque.
Cálculo de embeddings — Candle
Candle es el framework de machine learning de Hugging Face, escrito en Rust, compilado en el mismo binario. Genera las representaciones vectoriales de los documentos y las peticiones íntegramente en local. Los modelos de embeddings — E5-multilingual, BAAI/bge, o cualquier modelo compatible — se cargan desde el sistema de archivos local.
La generación de embeddings en local presenta una ventaja operacional frecuentemente descuidada: es determinista y estable. Los modelos cloud de embeddings pueden ser actualizados unilateralmente por su proveedor, lo que invalida los embeddings previamente calculados y exige una reindexación completa del corpus. Con Candle, el modelo está fijado en su infraestructura — evoluciona cuando usted lo decide, no cuando su proveedor publica una actualización.
Parsing documental nativo
El parser documental de Lexiane es puro Rust. No hace referencia a ninguna biblioteca Python, a ningún servicio externo, a ningún proceso secundario. PDF, Excel (.xlsx, .xls, .ods), PowerPoint (.pptx), HTML, Markdown, texto plano: todos los formatos se tratan en el mismo binario, por el mismo proceso, sin red.
Almacenamiento vectorial local
Tres opciones de almacenamiento vectorial local según las restricciones de volumen e infraestructura existente:
SQLite — para los despliegues embebidos o los corpus de tamaño moderado. Cero infraestructura adicional, cero latencia de red, cero administración. El vector store es un archivo en su sistema de archivos.
pgvector — extensión PostgreSQL para las organizaciones que ya disponen de un cluster PostgreSQL en su perímetro. El índice vectorial coexiste con sus datos relacionales en el mismo cluster — una única infraestructura que administrar, respaldar y auditar.
Qdrant — base vectorial dedicada para los corpus voluminosos que requieren rendimientos de indexación y recuperación optimizados a gran escala. Desplegada en su infraestructura, permanece en su perímetro.
Búsqueda híbrida local — Tantivy
El índice sparse Tantivy (BM25) está integrado en el binario. La búsqueda híbrida — vectorial densa por similitud semántica, y léxica sparse por correspondencia de términos — se ejecuta íntegramente en local. No se necesita ninguna infraestructura de búsqueda externa (Elasticsearch, OpenSearch).
La fusión de las dos modalidades por Reciprocal Rank Fusion garantiza que ni las correspondencias semánticas ni las correspondencias léxicas exactas se pierdan — sin llamada de red.
Lo que realmente despliega
Un binario estático de Linux. Un archivo de configuración TOML. Archivos de modelos pre-descargados. Eso es todo.
Sin intérprete Python. Sin gestor de paquetes. Sin máquina virtual. Sin proceso secundario. Sin servicio de descubrimiento. Sin registro de contenedores que contactar. El sistema está operativo en una red totalmente aislada, sin ningún acceso a internet, desde el primer arranque.
Las capas de protección de datos
La residencia local de los datos es necesaria pero no suficiente. Lexiane añade varias capas de protección que operan sobre los datos incluso dentro del perímetro local — contra las filtraciones internas, los accesos no autorizados, y los comportamientos del sistema que podrían exponer información sensible.
Filtrado PII antes de cualquier vectorización
El filtro de datos personales opera en primera posición en el pipeline de ingesta — antes del chunking semántico, antes del cálculo de embeddings, antes de la indexación. Los datos personales detectados en sus documentos se tratan según las políticas que usted define por categoría:
| Categoría | Ejemplo | Política disponible |
|---|---|---|
| Direcciones de correo electrónico | juan.garcia@empresa.es | Enmascaramiento [EMAIL] · Supresión · Hash |
| Números de teléfono | +34 6 12 34 56 78 | Enmascaramiento [TELEFONO] · Supresión · Hash |
| IBAN | ES91 1234... | Enmascaramiento [IBAN] · Supresión · Hash |
| Números de seguridad social | 1 85 04 75 123 456 78 | Enmascaramiento [NSS] · Supresión · Hash |
| Direcciones IP | 192.168.1.42 | Enmascaramiento [IP] · Supresión · Hash |
El enmascaramiento tipado conserva el tipo de la información — lo que preserva la coherencia semántica del documento para la búsqueda — al tiempo que hace el valor inaccesible en el vector store, en las respuestas generadas, y en los logs.
La política aplicada se registra en el audit trail para cada documento tratado.
Control de acceso documental antes de la generación
En un despliegue compartido entre varios equipos o varios niveles de sensibilidad, la cuestión de quién puede acceder a qué se plantea a nivel de la recuperación — no solo a nivel de la interfaz.
El puerto AccessControl filtra los resultados de recuperación según los derechos del usuario solicitante antes de que el contexto se transmita al LLM. Un documento al que un usuario no tiene acceso no se transmite como contexto de generación — aunque esté presente en el vector store y sea semánticamente pertinente a la petición.
Esta posición en el pipeline es crítica: un control de acceso aplicado únicamente en la interfaz de usuario deja documentos confidenciales atravesar el modelo de lenguaje. Un LLM que ha recibido un documento en su contexto puede revelar su contenido de forma indirecta, aunque la respuesta parezca no hacer referencia directa a él. Lexiane corta este vector en origen.
Se soportan dos modelos de control de acceso:
- RBAC — los derechos se definen por el rol del usuario en la organización
- ABAC — los derechos se definen por atributos documentales: nivel de clasificación, departamento propietario, fecha de publicación, perímetro de proyecto
Audit trail SHA-256 — bajo su control
La cadena de auditoría criptográfica registra cada acción del pipeline en su infraestructura — no en un servicio de logging externo, no en un proveedor tercero. El registro le pertenece íntegramente.
Cada entrada está firmada por el hash SHA-256 de la anterior. Cualquier modificación retrospectiva rompe la cadena y es matemáticamente detectable. En caso de incidente — acceso no autorizado, petición fuera de perímetro, intento de inyección — la reconstrucción forense completa es posible a partir de la cadena: quién accedió a qué, en qué momento, con qué resultado.
Guardrails de entrada y de salida
Los mecanismos de protección contra la inyección de prompt (InputGuardrail) y de validación de las respuestas (OutputGuardrail) operan íntegramente en local. Una petición maliciosa se bloquea antes de solicitar el LLM local. Una respuesta que incorporara datos sensibles o que saliera del perímetro definido se intercepta antes de llegar al usuario. Ninguno de estos tratamientos requiere una llamada de red.
Para quién es el RAG privado
Defensa e inteligencia
Las organizaciones de defensa e inteligencia operan en entornos donde la confidencialidad de los datos no es relativa — es absoluta. Un documento clasificado que transita por un servicio cloud, aunque sea momentáneamente, aunque esté cifrado, constituye una violación potencial de las reglas de seguridad operacional. La cuestión no es si el proveedor es de confianza. Es que el tránsito mismo es inaceptable.
Lexiane se despliega en una red totalmente aislada — SCIF, red clasificada, datacenter soberano — sin ninguna exigencia de conectividad. Los analistas interrogan sus corpus documentales sensibles con las capacidades de un LLM de producción, sin que ningún dato cruce el perímetro de seguridad. El audit trail SHA-256 registra cada acceso con una trazabilidad criptográfica que satisface las exigencias de trazabilidad más estrictas.
Salud y dispositivos médicos
Los datos de salud están sometidos a las regulaciones más estrictas en materia de protección — RGPD, referencial HDS (Hébergement de Données de Santé) en Francia, directivas europeas sobre datos de salud. Estas regulaciones imponen no solo una localización de los datos, sino una certificación de los alojadores y de los tratamientos.
Un establecimiento de salud o un fabricante de dispositivos médicos que desee desplegar un asistente documental sobre historias clínicas, datos de ensayos clínicos, o documentos de farmacovigilancia no puede apoyarse en una API cloud no certificada HDS. El RAG privado de Lexiane trata estos datos íntegramente en local — en su infraestructura, bajo su responsabilidad de tratamiento, sin proveedor tercero interpuesto.
La dimensión certificación también es pertinente: IEC 62304 Ed. 2, cuya publicación está prevista para agosto de 2026, introducirá exigencias sobre los softwares que incorporan IA. Lexiane es el único motor RAG concebido para cumplir con este estándar de certificación — con un núcleo #![forbid(unsafe_code)] y compatibilidad Ferrocene.
Finanzas y bancos centrales
Las instituciones financieras están sometidas a obligaciones de localización de datos, trazabilidad de las decisiones, y resiliencia operacional — RGPD, DORA, regulaciones prudenciales nacionales. Confiar el tratamiento de documentos internos sensibles a un LLM cloud externo no es solo una cuestión de preferencia: a menudo es una cuestión de conformidad regulatoria cuyo incumplimiento compromete la responsabilidad de los directivos.
El RAG privado de Lexiane permite desplegar un asistente documental sobre corpus regulatorios, procedimientos internos, informes de riesgo, expedientes de crédito — íntegramente en local, con una trazabilidad criptográfica de cada acceso, y un filtrado PII que protege los datos personales de los clientes antes de cualquier vectorización.
Sector público y administraciones
Las administraciones públicas se enfrentan a exigencias crecientes de soberanía digital — NIS2, RGPD, orientaciones hacia soluciones cualificadas SecNumCloud. El tratamiento de datos de ciudadanos, documentos sensibles, o información sujeta al secreto profesional en infraestructuras cloud extranjeras plantea cuestiones jurídicas y estratégicas que las administraciones ya no pueden ignorar.
Un despliegue air-gapped de Lexiane responde a estas exigencias por naturaleza: no hay flujo de datos hacia un proveedor tercero, no hay dependencia de una infraestructura cloud, no hay riesgo de transferencia de datos fuera del territorio nacional. La soberanía digital no es una política declarada — es una propiedad física del despliegue.
Industria y sistemas embebidos
Los entornos industriales comparten con los entornos clasificados una restricción estructural: la frecuente ausencia de conectividad de red permanente. Un sitio de producción aislado, una plataforma offshore, un equipo embebido en un vehículo o una aeronave — estos sistemas no pueden depender de una API cloud para funcionar.
Lexiane funciona como binario estático sin dependencias de red. Puede responder a peticiones sobre manuales técnicos, procedimientos de mantenimiento, bases de conocimiento de producto — en un vehículo, en una línea de producción, en un equipo industrial aislado. Su ausencia de garbage collector garantiza un comportamiento temporal determinista, compatible con las exigencias de los sistemas de tiempo real.
Lo que el RAG privado cambia para sus equipos
Para su CISO
La superficie de ataque relacionada con el tratamiento de datos se reduce a su perímetro físico. No hay flujos de datos salientes que vigilar, no hay API externa que auditar, no hay proveedor tercero cuya política de seguridad deba verificarse. La cartografía de riesgos relacionados con el sistema IA está delimitada por su infraestructura existente.
Para su DPO
La conformidad RGPD no se basa en un contrato con un subcontratista de tratamiento. Está garantizada por la arquitectura: los datos personales no pueden salir de su perímetro. El registro de tratamientos se reduce a sus propios sistemas — ninguna declaración de transferencia, ningún artículo 28 con un proveedor cloud IA, ningún riesgo de transferencia fuera de la UE relacionado con la inferencia.
Para sus auditores
La prueba de confidencialidad de los datos es arquitectural, no contractual. Un auditor puede verificar, a la inspección de la configuración del sistema, que ningún adaptador de red externo está activado. La cadena de auditoría SHA-256 prueba que cada documento fue tratado conforme a las políticas definidas. El filtrado PII está registrado para cada documento ingerido.
Para su CTO
Un único binario que desplegar, mantener y auditar. Sin pila de inferencia separada, sin servicio de embeddings externo, sin pipeline de sincronización entre componentes distribuidos. La reducción de la complejidad operacional es directamente proporcional a la reducción de la superficie de ataque.
Lo que renuncia al elegir el RAG privado — y cómo responder a ello
Toda decisión de arquitectura tiene contrapartidas. La transparencia sobre estas contrapartidas es necesaria para tomar una decisión informada.
La capacidad de razonamiento de los mejores modelos cloud. GPT-4o, Claude Opus, Gemini Ultra: los modelos de vanguardia de los grandes proveedores ofrecen capacidades de razonamiento que los modelos locales de 7B-13B no alcanzan para todas las tareas. Para preguntas documentales directas, resúmenes, extracciones estructuradas — los modelos locales son completamente competentes. Para tareas de razonamiento complejo o síntesis de cadenas de documentos muy largas, la diferencia puede ser perceptible. Para estos análisis complejos, el RAG Agéntico ofrece una alternativa local: multiplicando las pasadas de recuperación dirigidas, compensa parcialmente la brecha de razonamiento sin recurrir a un modelo en la nube.
Respuesta: La configuración híbrida de Lexiane permite conservar los embeddings y el almacenamiento en local — los datos fuente nunca salen — mientras se delega la generación a un LLM cloud sobre fragmentos de contexto anonimizados. Sus documentos brutos permanecen en su perímetro. El LLM cloud recibe extractos.
La velocidad de generación sin GPU dedicada. Un LLM 7B cuantizado en CPU genera entre 5 y 15 tokens por segundo según el hardware — perceptible en respuestas largas, aceptable en peticiones documentales estándar. Con una GPU NVIDIA o AMD, el mismo modelo alcanza 40 a 80 tokens por segundo.
Respuesta: Para los despliegues donde la latencia de generación es crítica, se recomienda una GPU. Para los casos de uso asíncronos — extracción en batch, análisis de corpus, generación diferida — la CPU es suficiente.
La actualización de los modelos. Los modelos cloud se actualizan automáticamente por los proveedores — lo que aporta regularmente mejoras de rendimiento. Los modelos locales evolucionan cuando usted decide actualizarlos — lo que es una restricción operacional, pero también una garantía de estabilidad comportamental.
Respuesta: El ecosistema de modelos open-source (Mistral, LLaMA, Phi) progresa rápidamente. La actualización de un modelo local se traduce en un reemplazo de archivos y un reinicio del servicio — sin modificación del pipeline, sin reindexación del corpus.
Desplegar su RAG privado
La configuración de referencia air-gapped
Lexiane se entrega con una configuración de referencia air-gapped completa y compilable — un proyecto real, no un ejemplo de documentación. Esta configuración incluye el archivo TOML de referencia, las variables de entorno documentadas, las dependencias explícitamente listadas, y las instrucciones de pre-descarga de los modelos.
Migrar del cloud al RAG privado
La arquitectura a la carta de Lexiane hace esta migración estructuralmente simple. Si ha empezado con una configuración cloud — OpenAI para los embeddings y la generación — la migración al RAG privado se traduce en el reemplazo de los adaptadores cloud por sus equivalentes locales en el archivo de configuración. El pipeline no cambia. La lógica de negocio no cambia.
La única operación sustancial: recalcular los embeddings de su corpus con el modelo local, ya que los embeddings OpenAI y los embeddings Candle no son comparables. Esta reindexación es una operación planificable, sin interrupción de servicio en la versión cloud durante la transición.
Requisitos de hardware
| Configuración | CPU | RAM | GPU | Caso de uso |
|---|---|---|---|---|
| Embebido / edge | 4 núcleos ARM64 | 8 GB | No | Corpus < 10 000 documentos, peticiones ocasionales |
| Servidor sin GPU | 8 núcleos x86_64 | 32 GB | No | Corpus medio, generación asíncrona aceptable |
| Servidor con GPU | 8 núcleos x86_64 | 32 GB | NVIDIA 16 GB VRAM | Corpus voluminoso, generación en tiempo real |
| Infraestructura existente | Su cluster PostgreSQL | — | Según carga | pgvector integrado en su stack |
Preguntas frecuentes
¿Se puede garantizar que ningún log o telemetría sale del perímetro?
Lexiane no incorpora ningún mecanismo de telemetría. No hay llamada de vuelta a casa, no hay recolección de métricas de uso, no hay señalización de errores hacia un servicio externo. Los logs aplicativos pasan por el framework tracing — configurables, filtrables, y dirigidos hacia sus sistemas de recolección internos. Ninguna emisión de datos hacia el exterior es posible en la configuración air-gapped.
¿Los modelos Mistral.rs pueden reemplazarse por modelos propios o modelos especializados?
Sí. El puerto LLMEngine es una interfaz de abstracción. Cualquier modelo compatible con los formatos soportados por Mistral.rs puede utilizarse. Si su organización ha entrenado o fine-tuneado un modelo especializado en su dominio — derecho, medicina, ingeniería —, puede reemplazar el modelo por defecto sin modificación del pipeline.
¿Cómo gestionar las actualizaciones de seguridad de los modelos en un entorno air-gapped? Los modelos son archivos estáticos cargados al arranque. Una actualización se traduce en un reemplazo de archivos en su infraestructura — operación planificable, reversible, sin conectividad externa. Para las actualizaciones del propio binario Lexiane, el proceso es idéntico: transferencia del binario a través de los canales seguros de su política de actualización de software.
¿El RAG privado soporta el streaming de respuestas? Sí. El servidor HTTP integrado expone una interfaz SSE (Server-Sent Events) que transmite las respuestas token a token — incluso en modo de inferencia local. La experiencia de usuario es comparable a la de una API cloud en términos de fluidez percibida.
¿Cómo integrar Lexiane en un entorno air-gapped que no autoriza binarios no firmados? Lexiane puede compilarse desde su código fuente en su propia cadena de build, en su perímetro, con su toolchain cualificada — incluido Ferrocene si su política de certificación lo impone. El binario producido se firma por su propia infraestructura de firma de código, según sus políticas internas.
¿Se puede usar Lexiane como pipeline de procesamiento de datos puro, sin interfaz conversacional? Sí. Lexiane puede desplegarse sin interfaz de generación — únicamente para la ingesta, el filtrado PII, la indexación vectorial, y la construcción del grafo de conocimiento. El pipeline de tratamiento es independiente de la capa de generación. Es el modo adaptado a la constitución de una base documental estructurada, antes de decidir cómo interrogarla.
Hablemos de su perímetro.
Cada despliegue de RAG privado tiene sus restricciones específicas: clasificación de los datos, referencial de conformidad aplicable, infraestructura existente, volumen documental, exigencias de rendimiento. No proponemos una configuración estándar para restricciones que no lo son.
Proponemos un intercambio sobre su entorno concreto — sus datos, su infraestructura, sus obligaciones regulatorias — y la configuración de RAG privado que les corresponde.
Lo que puede esperar:
- Una respuesta en 48h hábiles
- Un interlocutor técnico que conoce las restricciones de los entornos air-gapped, los sectores regulados, y la certificación de software
- Una evaluación honesta de la adecuación entre su necesidad y el RAG privado Lexiane — incluyendo si la configuración híbrida es más pertinente para su caso.
Solicitar acceso al Core Auditable
Regístrese para ser notificado de la apertura del programa de auditoría de nuestro Core. De conformidad con nuestra política de privacidad, su dirección de correo electrónico profesional se utilizará exclusivamente para esta comunicación técnica, sin ningún uso de marketing posterior. Acceso distribuido a través de registro privado seguro.
Contáctenos