Saltar al contenido
RAG agéntico soberano — bucle de razonamiento documental on-premise Lexiane

RAG Agéntico | Razonamiento Documental Soberano | Lexiane

RAG agéntico on-premise con bucle de razonamiento iterativo. Análisis de corpus complejos, cruce multi-fuente, auditoría SHA-256, control humano integrado.

Un RAG clásico responde. Un RAG agéntico razona antes de responder — y sabe reconocer cuándo necesita buscar más antes de pronunciarse.

Esta distinción, aparentemente simple, cambia fundamentalmente lo que un sistema documental puede lograr. Desplaza la frontera entre las preguntas a las que una IA puede responder de forma fiable y las que se le escapan estructuralmente. Y plantea cuestiones de arquitectura — sobre el control, la trazabilidad, la certificación — que la mayoría de las implementaciones agénticas no abordan seriamente.

Lexiane integra una capa agéntica concebida para la producción: funcional, controlable, y arquitectónicamente separada del núcleo certificado.


El límite estructural del RAG clásico

Un pipeline RAG lineal funciona en una única pasada: la pregunta del usuario se vectoriza, los pasajes más similares se recuperan, y el LLM genera una respuesta a partir de ese contexto. Para la mayoría de las peticiones documentales directas, este modelo es eficiente y suficiente.

Pero se basa en una hipótesis implícita raramente formulada: que la primera recuperación es suficiente para producir una respuesta fiable.

Esta hipótesis se sostiene para las preguntas simples y bien planteadas. Cede en tres situaciones comunes.

La pregunta es más amplia de lo que la recuperación inicial puede cubrir. “Sintetiza las decisiones tomadas sobre el proyecto X entre enero y marzo” requiere decenas de pasajes dispersos en actas, emails exportados, notas de reunión. Una recuperación por similitud semántica devuelve los pasajes más cercanos a la formulación de la pregunta — no necesariamente los más pertinentes sobre el conjunto del período.

La pregunta es ambigua o imprecisa. El usuario sabe lo que busca, pero no dispone del vocabulario técnico exacto que permitiría a la búsqueda vectorial apuntar a los pasajes correctos. La primera recuperación devuelve resultados parcialmente pertinentes, pero no los que responderían realmente a la pregunta subyacente.

La respuesta requiere cruzar varias fuentes. Las informaciones pertinentes están presentes en el corpus, pero dispersas en decenas de documentos que no se parecen semánticamente. Ninguna recuperación en una única pasada puede agregarlas.

En estos tres casos, el RAG clásico produce una respuesta — pero una respuesta basada en un contexto insuficiente. Sin mecanismo de evaluación de la calidad de la recuperación, el sistema no sabe que responde mal. Responde con la misma aparente confianza, haya recuperado diez pasajes perfectamente pertinentes o tres vagamente relacionados.

El RAG agéntico resuelve este problema introduciendo un bucle de razonamiento entre la recuperación y la generación.


Lo que es realmente un agente RAG — y lo que no es

Antes de detallar la arquitectura, es necesaria una aclaración. El término “agéntico” se usa de forma muy amplia en el sector de la IA, a menudo para describir sistemas que son en realidad workflows de etapas predefinidas — una secuencia de operaciones codificadas de forma rígida, ejecutadas secuencialmente, sin decisión real en cada etapa.

Un sistema verdaderamente agéntico se distingue por una propiedad fundamental: toma decisiones contextuales en cada iteración, basadas en una evaluación del estado actual — y estas decisiones pueden divergir según el contenido recuperado, no solo según la estructura del workflow.

No es un chatbot. Un chatbot mantiene un historial conversacional y genera respuestas contextualizadas — pero no busca, no evalúa, y no decide reformular su búsqueda.

No es un motor de búsqueda avanzado. Un motor de búsqueda devuelve resultados según un algoritmo de ranking. No genera una respuesta, no evalúa si los resultados son suficientes, y no toma decisiones sobre lo que viene a continuación.

No es un workflow de etapas fijas. Un workflow predefinido ejecuta siempre las mismas operaciones en el mismo orden. Un agente puede recorrer caminos diferentes según lo que encuentre — reformular dos veces si la primera recuperación es insuficiente, llamar a una herramienta externa si el contexto documental está incompleto, abstenerse si ningún camino produce un contexto fiable.

El RAG agéntico de Lexiane es un orquestador de pipelines RAG en un bucle de razonamiento. En cada iteración, ejecuta un pipeline completo, evalúa el resultado, y toma una decisión sobre lo que sigue — según reglas configurables y guardas deterministas.


El bucle de razonamiento: anatomía de una iteración

Etapa 1 — Transformación y recuperación

Cada iteración comienza con una fase de recuperación. La petición actual — que puede ser la pregunta inicial reformulada, una subpregunta descompuesta, o una pregunta enriquecida por el contexto de las iteraciones anteriores — pasa por el pipeline de recuperación completo.

La recuperación no es una simple búsqueda vectorial. Lexiane implementa el estado del arte de la recuperación en producción:

Transformación de consulta. Antes de cualquier búsqueda, el QueryTransformer puede aplicar varias estrategias según la configuración:

  • Expansión de consulta — enriquecimiento de la pregunta con sinónimos, términos conexos, y reformulaciones para cubrir pasajes que no utilizan las mismas palabras que la pregunta.
  • HyDE (Hypothetical Document Embeddings) — generación de un documento hipotético que respondería a la pregunta, vectorización de este documento, y uso de su embedding para la búsqueda. Esta estrategia mejora significativamente la precisión de la búsqueda semántica sobre preguntas abstractas o técnicas.
  • Descomposición en subpreguntas — división de la pregunta inicial en preguntas más precisas, cada una abordando una dimensión específica de la respuesta esperada.

Multi-query retrieval con RRF. El MultiQueryRetrievalStage genera N variantes de la petición, ejecuta una recuperación independiente para cada una, y fusiona los resultados por Reciprocal Rank Fusion. La fórmula RRF — score(d) = Σ 1/(k + rango_i(d)) — produce un ranking consolidado que favorece los documentos que aparecen en buena posición en varias listas independientes, sin estar dominado por una única señal de relevancia.

Búsqueda híbrida. La recuperación combina sistemáticamente la búsqueda densa (similitud vectorial semántica) y la búsqueda sparse (BM25, correspondencia léxica). Los documentos pertinentes por su sentido y los documentos pertinentes por sus términos exactos se recuperan todos — luego se fusionan y se rerankean por un cross-encoder.

Etapa 2 — Evaluación del contexto recuperado

Una vez realizada la recuperación, el agente evalúa la calidad del contexto obtenido según varios criterios:

Relevancia global. La puerta de relevancia (RelevanceGateStage) calcula una puntuación de confianza agregada sobre los pasajes recuperados. Esta puntuación refleja en qué medida el contexto está alineado con la pregunta planteada.

Cobertura temática. El agente evalúa si los pasajes recuperados cubren las dimensiones de la pregunta — o si algunas dimensiones están ausentes del contexto actual. Una pregunta que requiere una comparación entre dos entidades, de las que solo una está representada en los pasajes recuperados, tiene un contexto incompleto.

Coherencia interna. Los pasajes contradictorios sobre un mismo hecho son una señal de que la recuperación ha traído informaciones conflictivas — lo que requiere bien una recuperación complementaria para arbitrar, bien una señalización explícita de la contradicción en la respuesta.

Etapa 3 — Decisión

Sobre la base de esta evaluación, el agente toma una de tres decisiones:

Responder. El contexto es suficientemente pertinente, completo y coherente. El pipeline de generación se activa con el contexto consolidado de las iteraciones sucesivas. La respuesta producida está anclada en fuentes trazadas, citadas y verificables.

Reformular y relanzar. El contexto es insuficiente o parcial. El agente reformula la petición utilizando las informaciones extraídas de los pasajes ya recuperados para orientar la nueva búsqueda. Esta reformulación puede tomar varias formas: reformulación directa de la pregunta, descomposición en subpregunta que apunta a la dimensión faltante, o reformulación por expansión hacia el vocabulario identificado en los pasajes parcialmente pertinentes.

Llamar a una herramienta externa. El contexto documental es intrínsecamente incompleto para esta petición — no porque la recuperación sea imperfecta, sino porque la información no está en el corpus. El agente puede llamar a una herramienta externa configurada para enriquecer el contexto: consulta de una API de datos en tiempo real, ejecución de un cálculo, acceso a una base de datos relacional, o llamada a un servicio especializado.

Etapa 4 — Control del bucle

Guardas deterministas encuadran cada iteración y pueden interrumpir el bucle independientemente del comportamiento del LLM:

  • Número máximo de iteraciones — el bucle se detiene después de N ciclos, cualesquiera que sean los resultados obtenidos.
  • Latencia máxima — una restricción temporal global sobre la sesión agéntica.
  • Puntuación mínima de relevancia — si el contexto no alcanza el umbral requerido después de varias reformulaciones, el sistema se abstiene antes que generar una respuesta mal fundamentada.
  • Condiciones de seguridad — los guardrails de entrada y salida operan en cada iteración. Una inyección de prompt detectada en la iteración N interrumpe el bucle en ese punto.

Estas guardas son reglas configurables, explícitas e inspeccionables. No dependen de un umbral de confianza interno del LLM — cuya calibración es opaca y variable según los modelos.


La decisión arquitectural que lo cambia todo

Lo agéntico fuera del núcleo certificado

La decisión de arquitectura más importante del módulo agéntico de Lexiane no está en lo que hace — sino en dónde se encuentra.

El bucle de razonamiento agéntico no está en el núcleo certificado. Orquesta el núcleo desde el exterior, a través de sus interfaces públicas, exactamente como un usuario humano orquestaría pipelines manualmente — pero a la velocidad de un programa.

Esta separación no es un detalle de implementación. Es el principio que hace al sistema simultáneamente capaz y auditable.

Por qué el bucle agéntico no puede estar en el núcleo certificado. El núcleo de Lexiane ejecuta pipelines deterministas. Dándole las mismas entradas dos veces, produce las mismas salidas. Es una propiedad fundamental de un núcleo certificable — sin ella, los tests no prueban nada y la auditoría no puede verificar nada.

El bucle agéntico es no determinista por naturaleza. El LLM que decide reformular o responder no es un autómata — sus decisiones dependen del contexto actual, de su temperatura, del historial de la sesión. Dos sesiones con la misma pregunta inicial pueden tomar caminos diferentes y llegar por rutas distintas a respuestas equivalentes.

Poner un comportamiento no determinista en un núcleo certificado lo haría no certificable. Lexiane los separa: el núcleo permanece determinista, certificable, auditable. La capa agéntica permanece no determinista, pero acotada y controlada.

Lo que esta separación garantiza concretamente.

Los pipelines ejecutados por el agente son exactamente los mismos que los del modo clásico — mismas etapas, mismos puertos, misma lógica de validación en el ensamblado, mismo audit trail. El agente no tiene acceso a ninguna funcionalidad del núcleo que no esté expuesta a través de sus interfaces públicas.

Cada pipeline activado por el agente — cada iteración del bucle — produce sus propios registros en la cadena SHA-256. La secuencia completa de decisiones es reconstituible: por qué el agente reformuló en la iteración 2, qué pasajes recuperó en la iteración 3, por qué finalmente decidió responder en la iteración 4.

El comportamiento no determinista está contenido en la capa agéntica y acotado por las guardas deterministas. No puede contaminar el núcleo ni alterar sus propiedades de seguridad.


Lo que el RAG agéntico hace posible

Análisis de expedientes complejos y voluminosos

Un expediente de respuesta a licitación, un expediente regulatorio de comercialización, un expediente de litigio jurídico — estos conjuntos documentales son voluminosos, heterogéneos, y requieren cruzar informaciones dispersas en decenas o centenares de documentos.

El RAG agéntico puede descomponer automáticamente una solicitud de análisis en subpreguntas, tratarlas iterativamente, y sintetizar los resultados en una respuesta estructurada. Una pregunta como “Identifica los riesgos contractuales en este expediente de proveedor” se convierte en una serie de búsquedas precisas: cláusulas de penalización, condiciones de rescisión, compromisos de niveles de servicio, historial de litigios — cada una tratada como una iteración distinta, cuyos resultados se consolidan antes de la síntesis final.

Cruce de fuentes contradictorias

Dos informes sobre el mismo incidente que divergen en los hechos. Dos versiones de un procedimiento regulatorio que se contradicen en un punto crítico. Una norma y su decreto de aplicación que no son perfectamente coherentes.

Un pipeline clásico elige uno u otro contexto según la proximidad vectorial. El agente puede identificar la contradicción, requerir ambos contextos en paralelo, y formular una respuesta que señale explícitamente la divergencia — con las referencias precisas a los documentos fuente de cada versión. Es una propiedad cualitativa fundamental para los contextos donde una respuesta que oculta una contradicción es peor que la ausencia de respuesta.

Extracción y agregación a gran escala

Extraer todas las fechas de vencimiento contractual de un corpus de 500 contratos. Identificar todos los equipos mencionados en 10 000 fichas de mantenimiento con su última fecha de intervención. Reseñar todas las decisiones tomadas en comité de dirección sobre un tema dado en 24 meses.

Estas tareas requieren numerosas pasadas de recuperación precisa y una agregación que la generación en una única pasada no puede producir de forma fiable sobre un corpus completo. El agente puede tratar iterativamente subconjuntos del corpus, consolidar los resultados parciales, y producir un resultado agregado coherente.

Recorrido del grafo de conocimiento

En configuración GraphRAG, el RAG agéntico dispone de una herramienta adicional: el recorrido multi-hop del grafo de conocimiento extraído de los documentos. Preguntas relacionales complejas — “¿Cuáles son los vínculos entre este proyecto, sus proveedores, y los incidentes de calidad documentados?” — pueden resolverse mediante una combinación de recuperación vectorial y recorrido del grafo RDF, cada iteración enriqueciendo el contexto desde un ángulo diferente.

Sesiones conversacionales con memoria de razonamiento

El servidor Lexiane mantiene sesiones conversacionales persistentes. En un contexto agéntico, esta memoria va más allá del simple historial de intercambios: el agente puede apoyarse en el contexto consolidado de las preguntas anteriores para orientar su recuperación en las preguntas siguientes. Una sesión de análisis de expediente puede extenderse sobre varios intercambios, cada uno apoyándose en el razonamiento de los intercambios anteriores — sin que el usuario tenga que recontextualizar en cada pregunta.


Cuándo usar el RAG agéntico — y cuándo no usarlo

El RAG agéntico no es universalmente superior al RAG clásico. Es más potente para ciertas tareas, más costoso para todas, e introduce una complejidad operacional adicional. La herramienta adecuada depende de la naturaleza de las peticiones.

CriterioRAG clásicoRAG agéntico
Preguntas directas, bien formuladasÓptimoSobrecalibrado
Preguntas ambiguas o imprecisasResultados variablesMejora significativa
Varias fuentes que cruzarResultados parcialesMejora significativa
Corpus < 10 000 documentos bien estructuradosSuficienteOpcional
Corpus voluminoso, heterogéneoPuede perder pasajesRecomendado
Extracción y agregación a gran escalaDifícil en pasada únicaConcebido para ello
Restricción de latencia estricta (< 2s)AdaptadoNo adaptado (varias iteraciones)
Entorno certificado, comportamiento deterministaCertificableNo certificable (capa agéntica)
Presupuesto de tokens limitadoEconómicoConsumo múltiple

La regla práctica: si sus usuarios plantean mayoritariamente preguntas directas sobre temas bien delimitados, el RAG clásico con multi-query retrieval cubre la mayoría de las necesidades. Si sus casos de uso implican regularmente análisis complejos, cruces multi-fuente, o extracciones a gran escala — el RAG agéntico es el modo adaptado.

Ambos modos coexisten en Lexiane y utilizan exactamente los mismos pipelines subyacentes. El paso de uno al otro es una decisión de configuración por tipo de petición, no una migración de sistema.


El control humano en el bucle agéntico

La cuestión del control humano sobre los sistemas agénticos es central — tanto para los equipos de gobernanza IA como para los referenciales regulatorios como el AI Act. Un sistema que razona de forma autónoma debe ser observable, interrumpible y auditable.

Observabilidad de cada iteración

Cada iteración del bucle agéntico se registra en la cadena de auditoría SHA-256: pregunta planteada, estrategia de reformulación elegida, pasajes recuperados, decisión tomada (responder / reformular / herramienta), puntuación de relevancia evaluada. La secuencia completa de razonamiento es consultable a posteriori — no solo la respuesta final.

Esta granularidad de auditoría permite a un supervisor comprender por qué el sistema tomó tal o cual camino — e identificar los casos donde el razonamiento fue subóptimo, para ajustar los parámetros del bucle.

Guardas deterministas como mecanismo de control

Las guardas que encuadran el bucle agéntico no son parámetros del LLM. Son reglas configurables aplicadas por el código del orquestador, independientemente de las decisiones del modelo de lenguaje. Aunque el LLM “decida” continuar reformulando, las guardas pueden interrumpir el bucle.

Estas guardas representan la política que su organización ha definido sobre el uso del sistema: número máximo de iteraciones, latencia máxima, umbral mínimo de relevancia para activar la generación. Son la materialización del control humano en el bucle.

Seguimiento del consumo de recursos

Las estadísticas de tokens consumidos (UsageStats) se acumulan sobre el conjunto de la sesión agéntica y son accesibles tras la ejecución. En configuración cloud, estos datos permiten vigilar y presupuestar el consumo de API de una sesión de razonamiento multi-iteraciones — y detectar sesiones anormalmente largas o costosas.

Bucle de retroalimentación

El puerto FeedbackStore permite a los usuarios evaluar las respuestas producidas por el sistema agéntico. Estos retornos alimentan un registro explotable para la mejora continua: identificación de los tipos de peticiones donde el razonamiento agéntico es insuficiente, de los dominios donde la calidad de recuperación es baja, de los casos donde la reformulación automática empeora los resultados en lugar de mejorarlos.


Consideraciones de rendimiento y coste

El RAG agéntico consume más recursos que un pipeline clásico — por definición, ya que ejecuta varios pipelines donde el modo clásico ejecuta uno. Esta realidad debe integrarse en el diseño del despliegue.

Consumo de tokens. Cada iteración del bucle genera embeddings para la reformulación, recupera pasajes, y solicita al LLM para la decisión y eventualmente la generación. En un modelo cloud, esto se traduce en una multiplicación de los costes de API respecto a un pipeline clásico. Las guardas de limitación de iteraciones son el principal mecanismo de control de estos costes.

Latencia. El tiempo de respuesta de una sesión agéntica es la suma de los tiempos de respuesta de cada iteración. Una sesión de tres iteraciones tarda tres veces más que un pipeline clásico, más el sobrecoste de la evaluación entre iteraciones. El RAG agéntico no es adecuado para los casos de uso que imponen una latencia de respuesta inferior a algunos segundos.

Estrategias de control de costes en producción.

Enrutamiento por complejidad. El puerto QueryRouter de Lexiane permite clasificar cada petición y dirigirla hacia el modo adaptado — clásico para las preguntas directas, agéntico para las preguntas complejas. Este enrutamiento reduce significativamente el consumo medio, reservando el modo agéntico para las peticiones que realmente lo necesitan.

Modelo de decisión ligero. La decisión de reformular o responder puede confiarse a un modelo de lenguaje menos potente (y menos costoso) que el modelo de generación. Solo la generación final solicita el modelo de máxima calidad — las iteraciones intermedias utilizan un modelo de decisión económico.

Caché semántica. El puerto SemanticCache permite cachear las respuestas a peticiones semánticamente próximas a las peticiones anteriores. Una pregunta ya tratada — o una pregunta muy similar — no activa una nueva sesión agéntica: la respuesta se devuelve directamente desde la caché.


Preguntas frecuentes

¿Cómo determina Lexiane que una reformulación es mejor que la anterior? La evaluación de la calidad del contexto recuperado se basa en la puntuación de la puerta de relevancia (RelevanceGateStage) y en las métricas de cobertura. La decisión de reformular se toma cuando esta puntuación es inferior al umbral configurado. La estrategia de reformulación — expansión, descomposición, HyDE — está determinada por la configuración de la capa agéntica y por el análisis del contexto parcial recuperado.

¿El agente puede modificar datos o activar acciones en sistemas externos? Únicamente las acciones explícitamente configuradas como herramientas disponibles. El módulo agéntico no tiene acceso a funcionalidades no definidas en su configuración. Las herramientas disponibles, sus parámetros, y sus permisos se definen en el ensamblado — no dinámicamente por el LLM. El agente no puede atribuirse capacidades a sí mismo.

¿Cómo garantizar que el agente no se vaya en una dirección indeseable sobre preguntas sensibles? Los guardrails de entrada y salida operan en cada iteración. Una petición sensible se bloquea por el InputGuardrail desde su detección — no solo sobre la pregunta inicial, sino sobre cada reformulación producida por el agente. Una respuesta que traspase las políticas de contenido se intercepta por el OutputGuardrail antes de la transmisión. Las guardas deterministas de limitación de iteraciones acotan la duración de cualquier razonamiento.

¿El RAG agéntico es compatible con el RAG Privado (air-gapped)? Sí. En configuración air-gapped, el bucle agéntico se ejecuta íntegramente en local — con el LLM local (Mistral.rs) como motor de decisión. La restricción principal es la capacidad de razonamiento del modelo local: un modelo 7B-13B es competente para la mayoría de las decisiones de reformulación documental, pero puede mostrar límites en razonamientos muy complejos. La configuración híbrida — decisión agéntica delegada a un LLM cloud sobre fragmentos anonimizados — ofrece un compromiso entre potencia de razonamiento y soberanía de los datos fuente.

¿Se puede limitar el RAG agéntico a ciertos usuarios o ciertos tipos de peticiones? Sí. El enrutamiento por complejidad (QueryRouter) permite activar el modo agéntico selectivamente — según el perfil de usuario, el tipo de petición, o la colección documental interrogada. Un usuario estándar puede enrutarse al pipeline clásico, mientras que un analista senior dispone del modo agéntico para sus peticiones complejas.

¿Cómo depurar una sesión agéntica cuyo resultado es insatisfactorio? El audit trail registra cada iteración con sus parámetros: pregunta reformulada, estrategia de transformación utilizada, pasajes recuperados, puntuación de relevancia evaluada, decisión tomada. La reconstrucción completa del razonamiento es posible a partir de esta cadena — lo que permite identificar precisamente la iteración donde el razonamiento divergió y ajustar los parámetros en consecuencia.


Hablemos de sus casos de uso complejos.

El RAG agéntico aporta el mayor valor sobre necesidades documentales precisas: corpus voluminosos y heterogéneos, preguntas transversales a numerosas fuentes, tareas de extracción y agregación a gran escala. Estas necesidades varían significativamente según las organizaciones.

Proponemos un intercambio sobre sus casos de uso concretos — las preguntas que sus equipos plantean hoy y a las que su sistema documental responde mal, los análisis complejos que todavía requieren intervención manual, los corpus que resisten a una búsqueda clásica. Y una evaluación honesta de lo que el RAG agéntico puede aportar — incluyendo si el modo clásico con multi-query retrieval cubre la mayor parte de su necesidad a menor coste.

Lo que puede esperar:

  • Una respuesta en 48h hábiles
  • Un interlocutor técnico que conoce los casos de uso agénticos en producción y sus límites reales
  • Una recomendación de configuración calibrada sobre su necesidad — modo clásico, agéntico, o híbrido según los tipos de peticiones

→ Contactar

Sin compromiso comercial. Una conversación sobre sus casos de uso.

Solicitar acceso al Core Auditable

Regístrese para ser notificado de la apertura del programa de auditoría de nuestro Core. De conformidad con nuestra política de privacidad, su dirección de correo electrónico profesional se utilizará exclusivamente para esta comunicación técnica, sin ningún uso de marketing posterior. Acceso distribuido a través de registro privado seguro.

Contáctenos