Saltar al contenido
Pipeline soberana de ingeniería de datos y vectorización documental

Ingeniería de Datos IA | Procesamiento Documental Soberano | Lexiane

Pipeline soberana de procesamiento documental: parsing Rust, chunking semántico, filtro PII, GraphRAG, auditoría SHA-256. Sin dependencia cloud.

Lexiane es un pipeline de procesamiento documental end-to-end, concebido para las organizaciones que no pueden dejar sus datos en manos de un tercero. Ingesta, parsing, chunking semántico, detección de datos personales, enriquecimiento, indexación vectorial, auditoría criptográfica: cada etapa se ejecuta en un único binario, en su infraestructura, sin llamadas de red.


El problema que sus datos plantean a la mayoría de las soluciones IA

Las plataformas RAG y las herramientas de IA del mercado le sitúan ante una elección estructuralmente desfavorable: enviar sus documentos a la nube de un editor tercero, o renunciar a la inteligencia artificial.

Esta elección se presenta como un compromiso técnico. En realidad es una transferencia de riesgo — jurídico, regulatorio, estratégico. Sus procedimientos internos, sus contratos, sus datos de pacientes, sus informes financieros, sus especificaciones técnicas: en cuanto salen de su perímetro, pierde el control sobre lo que les ocurre.

Lexiane parte del principio opuesto: el tratamiento de sus datos se realiza donde están, con las garantías que usted ha definido — no las que su proveedor le autoriza.


Un pipeline de procesamiento documental completo, sin dependencia externa

Parsing nativo de sus formatos documentales

El primer eslabón de un procesamiento de datos de calidad es la capacidad de leer sus documentos tal como son, en sus formatos de producción. El parser de Lexiane está escrito en puro Rust — sin dependencia Python, sin servicio tercero, sin llamadas de red.

Formatos soportados de forma nativa:

FormatoCasos de uso típicos
PDFInformes, contratos, especificaciones, expedientes regulatorios
Excel (.xlsx, .xls, .ods)Tablas de datos, presupuestos, inventarios, referenciales
PowerPoint (.pptx)Presentaciones, materiales de formación, diapositivas estratégicas
HTMLPáginas de intranet, exportaciones de wikis, documentación web
MarkdownDocumentación técnica, bases de conocimiento, notas estructuradas
Texto planoNotas, emails exportados, registros, datos semi-estructurados

Un único binario lee, parsea e indexa sus documentos. Sin intérprete Python que mantener, sin servidor secundario que operar, sin superficie de ataque adicional.


Chunking semántico con granularidad configurable

La calidad de un procesamiento documental no depende únicamente de lo que se lee — depende de cómo se trocea. Un mal troceo produce fragmentos que cortan las ideas en mitad de una frase, separan una pregunta de su respuesta, o rompen la coherencia de una tabla.

El motor de chunking de Lexiane opera con una precisión configurable:

  • Tamaño y solapamiento adaptados a la naturaleza de su corpus
  • Respeto de las fronteras lingüísticas hasta el grafema Unicode — sus documentos en español, árabe, chino o japonés se trocean correctamente
  • Jerarquía padre-hijo: cada fragmento conserva una referencia a su contexto padre, recuperable en la generación para restituir el pasaje completo
  • Chunking semántico recursivo: el sistema respeta la estructura del documento — párrafos, secciones, listas — en lugar de contar mecánicamente caracteres

El resultado: fragmentos que tienen sentido de forma independiente, indexables con precisión, contextualizables en la restitución.


Enriquecimiento automático antes de la indexación

Cada fragmento documental pasa por una etapa de enriquecimiento antes de la vectorización. El objetivo: aumentar la calidad de recuperación añadiendo a cada segmento los metadatos que lo hacen más precisamente recuperable.

Enriquecimientos aplicados:

  • Número de tokens y palabras del segmento
  • Extracción automática de palabras clave representativas
  • Resumen del segmento para la búsqueda híbrida
  • Contenido aumentado (contexto del documento padre inyectado en el chunk)
  • Identificadores de trazabilidad (documento fuente, posición, hash del contenido)

Estos enriquecimientos forman parte integral del pipeline de ingesta — se aplican a cada documento desde la primera indexación, sin etapa manual.


Extracción de grafo de conocimiento (GraphRAG)

Para los corpus ricos en relaciones — documentos regulatorios, archivos de proyectos, bases de conocimiento de negocio, informes de auditoría — una búsqueda vectorial sola no es suficiente. Encuentra pasajes similares. No comprende los vínculos entre las entidades que se mencionan en ellos.

El motor GraphRAG de Lexiane extrae automáticamente los tripletes de conocimiento de sus documentos — sujeto, predicado, objeto — y los almacena en un triplestore RDF persistente. La base así construida comprende las relaciones entre personas, organizaciones, proyectos, fechas y normativas.

Lo que esto hace posible:

“¿Qué proveedores se mencionan en las auditorías de 2023 Y en los contratos activos?”

“¿Qué proyectos están vinculados a este responsable y a qué normativa?”

“Identificar las cadenas de dependencia entre los componentes mencionados en estas 500 fichas técnicas.”

El recorrido multi-hop del grafo produce información que la búsqueda vectorial sola no puede alcanzar estructuralmente.


Protección de datos personales por arquitectura

Filtrado PII integrado en el pipeline

El filtro PII (Personally Identifiable Information) de Lexiane opera antes de cualquier vectorización, cualquier indexación, y cualquier llamada a un modelo de lenguaje. Ningún dato sensible alcanza su vector store o su LLM sin haber sido tratado según sus reglas.

Datos personales detectados:

Tipo de datoEjemplos
Direcciones de correo electrónicojuan.garcia@empresa.es
Números de teléfonoFormatos nacionales e internacionales
IBAN y datos bancariosES91 1234 5678 9012 3456 7890
Números de seguridad socialFormatos españoles y europeos
Direcciones IPIPv4 e IPv6
Identificadores configurablesSegún su referencial de negocio

Políticas de tratamiento configurables:

  • Enmascaramiento tipado — sustitución por un placeholder semántico [EMAIL], [IBAN], [TELEFONO]: el tipo de información permanece legible, el valor desaparece
  • Supresión — eliminación completa del valor del fragmento
  • Hash — sustitución por la huella criptográfica del valor: permite la coherencia de las referencias sin exponer el dato

Esta arquitectura garantiza el cumplimiento RGPD por construcción y no por proceso: el dato no alcanza el sistema de almacenamiento antes de haber sido tratado. No es una regla de buenas prácticas. Es una restricción mecánica del pipeline.


Trazabilidad y auditoría criptográfica en cada etapa

Una cadena de integridad SHA-256 inviolable

Cada acción del pipeline de tratamiento se registra en una cadena de auditoría criptográfica. Cada entrada está firmada por el hash SHA-256 de la anterior — cualquier modificación ulterior de un evento es matemáticamente detectable.

Eventos trazados en la cadena:

  • Documento enviado a la ingesta (identificador, hash del contenido, marca de tiempo)
  • Fragmentos creados y sus parámetros de troceo
  • Embeddings generados (modelo, dimensión, fecha)
  • Entidades extraídas para el grafo de conocimiento
  • Datos personales detectados y política aplicada
  • Peticiones de usuarios y documentos consultados
  • Respuestas producidas y sus fuentes

No es una funcionalidad de registro. Es una garantía de integridad estructural: puede demostrar en cualquier momento que el tratamiento se desarrolló exactamente como se registró, y que ningún registro fue modificado a posteriori.

Para un auditor, un responsable de cumplimiento o un regulador, esta cadena constituye una prueba técnica independiente de sus procesos declarados.


Evaluación de la calidad a la salida del pipeline

Métricas medidas, no suposiciones

La calidad de un pipeline de procesamiento documental no se decreta en la instalación — se mide en producción, sobre sus datos reales. Lexiane integra métricas de evaluación RAGAS a la salida del pipeline:

  • Fidelidad: ¿está la respuesta producida anclada en las fuentes recuperadas?
  • Relevancia: ¿responden las fuentes recuperadas realmente a la pregunta formulada?
  • Precisión del contexto: ¿son los fragmentos recuperados específicamente pertinentes?
  • Recall del contexto: ¿ha recuperado el pipeline el conjunto de la información disponible?

Guardrails de entrada detectan los intentos de inyección de prompt y las peticiones fuera de perímetro antes de que alcancen el pipeline. Los guardrails de salida verifican la respuesta producida antes de transmitirla al usuario.

La puerta de relevancia evalúa la puntuación de confianza global del contexto recuperado. Si las fuentes no son suficientemente fiables para producir una respuesta fundamentada, el sistema se abstiene — en lugar de generar una respuesta mal anclada. Es lo contrario de la alucinación: un sistema que sabe cuándo no sabe. Para los casos que requieren varias iteraciones de recuperación, el RAG Agéntico automatiza este proceso.


Lexiane como pipeline de procesamiento de datos autónomo

Estas capacidades no están reservadas a los casos de uso RAG conversacional. Lexiane puede desplegarse como pipeline de procesamiento de datos puro, independientemente de cualquier interfaz de generación:

  • Extracción y normalización documental en masa sobre sus archivos existentes
  • Detección y anonimización PII sobre un corpus antes de migración o archivado regulatorio
  • Construcción de un grafo de conocimiento a partir de sus documentos de referencia
  • Auditoría criptográfica del conjunto de sus flujos documentales
  • Indexación vectorial de su base para una búsqueda semántica sin LLM

El mismo rigor arquitectural, el mismo audit trail, la misma protección de datos — aplicados a sus flujos de tratamiento existentes, sin interfaz conversacional si no la necesita.


Tres modos de despliegue, un único pipeline

Air-gapped — soberanía absoluta

Parsing, chunking, enriquecimiento, filtrado PII, indexación vectorial y construcción del grafo: la totalidad del pipeline se ejecuta en local en un único binario. Cero llamadas de red. Cero datos salientes. Desplegable en una red clasificada, un datacenter soberano, o un sitio industrial sin conectividad permanente.

Cloud — potencia máxima

Modelos de embeddings y LLM cloud (OpenAI, Anthropic) activados mediante variable de entorno. El pipeline permanece idéntico — solo cambian los adaptadores. Si mañana sustituye OpenAI por un modelo auto-alojado, su pipeline de tratamiento no cambia ni una línea.

Híbrido — datos sensibles en sitio, generación en la nube

Los embeddings se calculan localmente sobre sus documentos. La generación se delega a un modelo cloud únicamente sobre los fragmentos de contexto anonimizados. Sus documentos fuente nunca salen. El LLM cloud recibe extractos — no sus archivos.


Garantías técnicas verificables

GarantíaMecanismo de aplicación
Ninguna operación de memoria arriesgada en el núcleo#![forbid(unsafe_code)] aplicado por el compilador — no por revisión de código
Ningún camino de error ignorable#[must_use] en todos los resultados — un camino ignorado es un error de compilación
Ningún unwrap() / panic!() en producciónGarantizado por test automatizado continuo
Integridad de la cadena de auditoríaSHA-256 encadenado — cualquier modificación es matemáticamente detectable
Validación de las dependencias entre etapasEn el ensamblado, antes de la ejecución — los errores de configuración no alcanzan el runtime
Cero dependencias de proveedor en el núcleo certificadoVerificado por test automatizado en la compilación

1 254 tests automatizados pasan de forma continua. 27 módulos independientes, cada uno con sus propias fronteras de compilación. 25 interfaces de abstracción definen la totalidad de los puntos de contacto entre el núcleo y el exterior.


Lo que sus equipos ganan de forma concreta

Para su CISO Cada dato tratado está trazado. Cada política PII se aplica mecánicamente, no por convención. El audit trail SHA-256 constituye una prueba técnica independiente de sus procesos de tratamiento — consultable, exportable, inviolable.

Para su DPO La conformidad RGPD no es una casilla que marcar tras el despliegue. Está inscrita en la arquitectura: los datos personales no pueden alcanzar su vector store o su LLM sin haber sido tratados según sus reglas. El registro de tratamientos es auditable a partir de la cadena criptográfica.

Para su CTO Un único binario, sin runtime, sin gestor de paquetes, sin servidor secundario. La totalidad del pipeline — parsing, chunking, PII, embeddings, indexación — se despliega como cualquier binario Linux. Sin imagen Docker de 800 MB. Sin dependencias Python que mantener. Una configuración TOML. Eso es todo.

Para sus equipos de cumplimiento en sectores regulados Lexiane es el único motor de procesamiento documental IA concebido para la certificación. IEC 62304 Ed. 2 (publicación prevista agosto 2026) introducirá exigencias explícitas sobre los sistemas IA/ML en los dispositivos médicos. ISO 26262 para el automóvil. Lexiane es compilable con Ferrocene, el compilador Rust cualificado ASIL D / SIL 4. Su expediente de cualificación se remonta desde el binario desplegado hasta el compilador utilizado para producirlo.


Hablemos de su corpus documental.

Cada tratamiento de datos tiene sus propias restricciones: formato, volumen, sensibilidad, regulación sectorial, exigencias de auditabilidad. No proponemos una demostración genérica.

Proponemos un intercambio sobre su caso concreto: sus documentos, sus restricciones, sus preguntas de cumplimiento. Y una evaluación honesta de lo que Lexiane puede hacer — incluso si la respuesta es “no ahora” o “no de esta manera”.

→ Contactar

Solicitar acceso al Core Auditable

Regístrese para ser notificado de la apertura del programa de auditoría de nuestro Core. De conformidad con nuestra política de privacidad, su dirección de correo electrónico profesional se utilizará exclusivamente para esta comunicación técnica, sin ningún uso de marketing posterior. Acceso distribuido a través de registro privado seguro.

Contáctenos