Vai al contenuto
Pipeline RAG privata e document intelligence on-premise

RAG Privato & Assistente IA Locale | LLM On-Premise | Lexiane

RAG air-gapped reale: Mistral.rs, embedding Candle, ricerca ibrida — tutto in un binario. Zero connessioni uscenti. Conforme GDPR, DORA, IEC 62304.

Le organizzazioni che trattano dati sensibili si trovano di fronte a una contraddizione apparente: i sistemi di intelligenza artificiale più capaci presuppongono una connessione a servizi cloud, mentre i loro vincoli regolatori, operativi o strategici impongono che i loro dati rimangano in locale. La maggior parte delle soluzioni propone di risolvere questa contraddizione tramite un contratto — una clausola di riservatezza, un impegno di non utilizzo dei dati, un label di conformità.

Lexiane la risolve tramite l’architettura.

In modalità RAG privato, l’intera elaborazione documentale — parsing, chunking, vettorizzazione, inferenza LLM, archiviazione, recupero, generazione — si esegue in un unico binario, sulla vostra infrastruttura, senza che un singolo byte dei vostri documenti attraversi il vostro perimetro di rete. Non è una politica. È una proprietà fisica del sistema.


Cosa significa realmente “privato”

Il mercato dell’IA ha progressivamente diluito il significato della parola “privato”. È utile ristabilire distinzioni precise, poiché hanno conseguenze giuridiche, operative e regolamentari concrete.

Soluzione cloud con impegni di riservatezza. I vostri dati vengono elaborati sull’infrastruttura di un prestatore terzo — nella sua zona geografica, sui suoi server, dai suoi modelli. Il prestatore si impegna contrattualmente a non utilizzare i vostri dati per addestrare i suoi modelli, a conservarli in una regione definita, a eliminarli su richiesta. La garanzia si basa sulla fiducia nel rispetto del contratto, sulla capacità dell’audit di rilevare una violazione, e sulla stabilità delle condizioni d’uso nel tempo.

Soluzione on-premise con chiamate di inferenza esterne. L’infrastruttura è nel vostro datacenter. Ma il modello linguistico è ospitato su un’API esterna — OpenAI, Anthropic, o un servizio cloud del vostro fornitore di soluzione. I vostri documenti vengono suddivisi e vettorizzati in locale, ma i frammenti di contesto vengono trasmessi al LLM esterno a ogni generazione. I dati non risiedono presso un terzo, ma vi transitano a ogni richiesta.

Vero air-gapped — nessun flusso in uscita. L’infrastruttura è nel vostro perimetro. Il modello linguistico gira nel vostro perimetro. Gli embedding vengono calcolati nel vostro perimetro. L’archiviazione vettoriale è nel vostro perimetro. Non c’è alcuna chiamata di rete in uscita — non perché un firewall la blocchi, ma perché il sistema strutturalmente non ne effettua nessuna. I vostri dati non possono lasciare il vostro perimetro, nemmeno in caso di errore di configurazione del firewall.

Il RAG privato di Lexiane è la terza categoria. La garanzia non è contrattuale. È architetturale — e verificabile.


Lo stack locale completo

Un RAG veramente privato richiede che ogni componente della pipeline disponga di un’implementazione locale. Non è sufficiente archiviare i dati in locale se l’inferenza chiama un servizio esterno. Non è sufficiente avere un LLM locale se gli embedding vengono calcolati tramite un’API cloud. Lexiane è l’unico motore RAG che compila l’intero stack in un unico binario.

Inferenza LLM locale — Mistral.rs

Mistral.rs è un motore di inferenza LLM ad alte prestazioni scritto in Rust, compilato direttamente nel binario Lexiane. Non c’è nessun processo Ollama in parallelo, nessun server vLLM separato, nessuna chiamata HTTP interna — l’inferenza è nel binario, al pari del resto della pipeline.

Mistral.rs supporta i modelli della famiglia Mistral, LLaMA 3, Phi, e i loro derivati quantizzati (GGUF, GGML). La quantizzazione permette di eseguire modelli da 7B a 13B parametri su server senza GPU dedicata — con prestazioni di generazione soddisfacenti per la maggior parte dei casi d’uso documentali. Con una GPU NVIDIA o AMD, gli stessi modelli raggiungono throughput di generazione comparabili alle API cloud standard.

La scelta del modello è una decisione di configurazione, non di codice. Cambiare modello locale non modifica la pipeline — modifica il file TOML e i file di modelli caricati all’avvio.

Calcolo degli embedding — Candle

Candle è il framework di machine learning di Hugging Face, scritto in Rust, compilato nello stesso binario. Genera le rappresentazioni vettoriali dei documenti e delle richieste interamente in locale. I modelli di embedding — E5-multilingual, BAAI/bge, o qualsiasi modello compatibile — vengono caricati dal filesystem locale.

La generazione di embedding in locale presenta un vantaggio operativo spesso trascurato: è deterministica e stabile. I modelli cloud di embedding possono essere aggiornati unilateralmente dal loro fornitore, il che invalida gli embedding precedentemente calcolati e richiede una re-indicizzazione completa del corpus. Con Candle, il modello è fisso nella vostra infrastruttura — evolve quando voi lo decidete, non quando il vostro fornitore pubblica un aggiornamento.

Parsing documentale nativo

Il parser documentale di Lexiane è puro Rust. Non ricorre ad alcuna libreria Python, ad alcun servizio esterno, ad alcun processo secondario. PDF, Excel (.xlsx, .xls, .ods), PowerPoint (.pptx), HTML, Markdown, testo semplice: tutti i formati vengono elaborati nello stesso binario, dallo stesso processo, senza rete.

Archiviazione vettoriale locale

Tre opzioni di archiviazione vettoriale locale secondo i vincoli di volume e di infrastruttura esistente:

SQLite — per i deployment embedded o i corpus di dimensioni moderate. Zero infrastruttura aggiuntiva, zero latenza di rete, zero amministrazione. Il vector store è un file sul vostro filesystem.

pgvector — estensione PostgreSQL per le organizzazioni che dispongono già di un cluster PostgreSQL nel loro perimetro. L’indice vettoriale coesiste con i vostri dati relazionali nello stesso cluster — un’unica infrastruttura da amministrare, da salvare, e da verificare.

Qdrant — base vettoriale dedicata per i corpus voluminosi che richiedono prestazioni di indicizzazione e recupero ottimizzate a grande scala. Deployata nella vostra infrastruttura, rimane nel vostro perimetro.

Ricerca ibrida locale — Tantivy

L’indice sparse Tantivy (BM25) è incorporato nel binario. La ricerca ibrida — vettoriale densa per similarità semantica, e lessicale sparse per corrispondenza di termini — si esegue interamente in locale. Nessuna infrastruttura di ricerca esterna (Elasticsearch, OpenSearch) è necessaria.

La fusione delle due modalità tramite Reciprocal Rank Fusion assicura che né le corrispondenze semantiche né le corrispondenze lessicali esatte vengano mancate — senza chiamata di rete.

Cosa deployate realmente

Un binary statico Linux. Un file di configurazione TOML. File di modelli pre-scaricati. Tutto qui.

Nessun interprete Python. Nessun gestore di pacchetti. Nessuna macchina virtuale. Nessun processo secondario. Nessun servizio di discovery. Nessun registro di container da contattare. Il sistema è operativo in una rete totalmente isolata, senza alcun accesso internet, fin dal primo avvio.


Gli strati di protezione dei dati

La residenza locale dei dati è necessaria ma non sufficiente. Lexiane vi aggiunge diversi strati di protezione che operano sui dati anche nel perimetro locale — contro le fughe interne, gli accessi non autorizzati, e i comportamenti del sistema che potrebbero esporre informazioni sensibili.

Filtraggio PII prima di qualsiasi vettorizzazione

Il filtro di dati personali opera in prima posizione nella pipeline di ingestione — prima del chunking semantico, prima del calcolo degli embedding, prima dell’indicizzazione. I dati personali rilevati nei vostri documenti vengono trattati secondo le politiche che definite per categoria:

CategoriaEsempioPolitica disponibile
Indirizzi emailmario.rossi@azienda.itMascheramento [EMAIL] · Eliminazione · Hash
Numeri di telefono+39 06 12 34 56 78Mascheramento [TELEFONO] · Eliminazione · Hash
IBANIT60 X054...Mascheramento [IBAN] · Eliminazione · Hash
Codici fiscaliRSSMRA85M01H501ZMascheramento [CF] · Eliminazione · Hash
Indirizzi IP192.168.1.42Mascheramento [IP] · Eliminazione · Hash

Il mascheramento tipizzato conserva il tipo dell’informazione — il che preserva la coerenza semantica del documento per la ricerca — rendendo al tempo stesso il valore inaccessibile nel vector store, nelle risposte generate, e nei log.

La politica applicata è registrata nell’audit trail per ogni documento elaborato.

Controllo degli accessi documentale prima della generazione

In un deployment condiviso tra più team o più livelli di sensibilità, la questione di chi può accedere a cosa si pone a livello del recupero — non solo a livello dell’interfaccia.

La porta AccessControl filtra i risultati di recupero in base ai diritti dell’utente richiedente prima che il contesto venga trasmesso al LLM. Un documento a cui un utente non ha accesso non viene trasmesso come contesto di generazione — anche se è presente nel vector store e semanticamente pertinente alla richiesta.

Questa posizione nella pipeline è critica: un controllo degli accessi applicato solo sull’interfaccia utente lascia che documenti riservati attraversino il modello linguistico. Un LLM che ha ricevuto un documento nel suo contesto può rivelarne il contenuto in modo indiretto, anche se la risposta sembra non farvi direttamente riferimento. Lexiane taglia questo vettore a monte.

Due modelli di controllo degli accessi sono supportati:

  • RBAC — i diritti sono definiti dal ruolo dell’utente nell’organizzazione
  • ABAC — i diritti sono definiti da attributi documentali: livello di classificazione, reparto proprietario, data di pubblicazione, perimetro di progetto

Audit trail SHA-256 — sotto il vostro controllo

La catena di audit crittografica registra ogni azione della pipeline nella vostra infrastruttura — non in un servizio di logging esterno, non presso un prestatore terzo. Il registro vi appartiene interamente.

Ogni voce è firmata dall’hash SHA-256 della precedente. Qualsiasi modifica retroattiva rompe la catena ed è matematicamente rilevabile. In caso di incidente — accesso non autorizzato, richiesta fuori perimetro, tentativo di iniezione — la ricostruzione forense completa è possibile a partire dalla catena: chi ha avuto accesso a cosa, in quale momento, con quale risultato.

Guardrail di ingresso e di uscita

I meccanismi di protezione contro l’iniezione di prompt (InputGuardrail) e di validazione delle risposte (OutputGuardrail) operano interamente in locale. Una richiesta malevola viene bloccata prima di sollecitare il LLM locale. Una risposta che incorporasse dati sensibili o che uscisse dal perimetro definito viene intercettata prima di raggiungere l’utente. Nessuno di questi trattamenti richiede una chiamata di rete.


A chi è destinato il RAG privato

Difesa e intelligence

Le organizzazioni di difesa e di intelligence operano in ambienti dove la riservatezza dei dati non è relativa — è assoluta. Un documento classificato che transita per un servizio cloud, anche momentaneamente, anche cifrato, costituisce una potenziale violazione delle regole di sicurezza operativa. La questione non è sapere se il prestatore è affidabile. È che il transito stesso è inaccettabile.

Lexiane si deploya in una rete totalmente isolata — SCIF, rete classificata, datacenter sovrano — senza alcun requisito di connettività. Gli analisti interrogano i loro corpus documentali sensibili con le capacità di un LLM di produzione, senza che un dato attraversi il perimetro di sicurezza. L’audit trail SHA-256 registra ogni accesso con una tracciabilità crittografica che soddisfa i requisiti di tracciabilità più rigorosi.

Sanità e dispositivi medici

I dati sanitari sono soggetti alle normative più severe in materia di protezione — GDPR, riferimento HDS (Hébergement de Données de Santé) in Francia, direttive europee sui dati sanitari. Queste normative impongono non solo una localizzazione dei dati, ma una certificazione degli ospitanti e dei trattamenti.

Un’azienda sanitaria o un fabbricante di dispositivi medici che vuole deployare un assistente documentale su cartelle cliniche, dati di sperimentazioni cliniche, o documenti di farmacovigilanza non può appoggiarsi su un’API cloud non certificata HDS. Il RAG privato di Lexiane elabora questi dati interamente in locale — nella vostra infrastruttura, sotto la vostra responsabilità di trattamento, senza prestatore terzo interposto.

La dimensione certificazione è anche pertinente: IEC 62304 Ed. 2, la cui pubblicazione è prevista per agosto 2026, introdurrà requisiti sui software che incorporano IA. Lexiane è l’unico motore RAG progettato per soddisfare questo standard di certificazione — con un nucleo #![forbid(unsafe_code)] e una compatibilità Ferrocene.

Finanza e banche centrali

Le istituzioni finanziarie sono soggette a obblighi di localizzazione dei dati, tracciabilità delle decisioni, e resilienza operativa — GDPR, DORA, normative prudenziali nazionali. Affidare l’elaborazione di documenti interni sensibili a un LLM cloud esterno non è solo una questione di preferenza: è spesso una questione di conformità normativa il cui mancato rispetto impegna la responsabilità dei dirigenti.

Il RAG privato di Lexiane permette di deployare un assistente documentale su corpus normativi, procedure interne, rapporti di rischio, dossier di credito — interamente in locale, con una tracciabilità crittografica di ogni accesso, e un filtraggio PII che protegge i dati personali dei clienti prima di qualsiasi vettorizzazione.

Settore pubblico e amministrazioni

Le amministrazioni pubbliche si trovano di fronte a requisiti crescenti di sovranità digitale — NIS2, GDPR, orientamenti verso soluzioni qualificate SecNumCloud. L’elaborazione di dati di cittadini, di documenti sensibili, o di informazioni soggette al segreto professionale su infrastrutture cloud straniere pone questioni giuridiche e strategiche che le amministrazioni non possono più ignorare.

Un deployment air-gapped di Lexiane risponde a questi requisiti per natura: non c’è flusso di dati verso un prestatore terzo, nessuna dipendenza da un’infrastruttura cloud, nessun rischio di trasferimento di dati fuori dal territorio nazionale. La sovranità digitale non è una politica dichiarata — è una proprietà fisica del deployment.

Industria e sistemi embedded

Gli ambienti industriali condividono con gli ambienti classificati un vincolo strutturale: la frequente assenza di connettività di rete permanente. Un sito produttivo isolato, una piattaforma offshore, un’apparecchiatura embedded in un veicolo o un aeromobile — questi sistemi non possono dipendere da un’API cloud per funzionare.

Lexiane gira in binario statico senza dipendenze di rete. Può rispondere a richieste su manuali tecnici, procedure di manutenzione, basi di conoscenza prodotto — in un veicolo, su una linea di produzione, su un’apparecchiatura industriale isolata. La sua assenza di garbage collector garantisce un comportamento temporale deterministico, compatibile con i requisiti dei sistemi in tempo reale.


Ciò che il RAG privato cambia per i vostri team

Per il vostro CISO

La superficie di attacco legata all’elaborazione dei dati è ridotta al vostro perimetro fisico. Non ci sono flussi di dati in uscita da monitorare, nessuna API esterna da verificare, nessun prestatore terzo la cui politica di sicurezza deve essere controllata. La mappatura dei rischi legati al sistema IA è delimitata dalla vostra infrastruttura esistente.

Per il vostro DPO

La conformità GDPR non si basa su un contratto con un subappaltatore del trattamento. È garantita dall’architettura: i dati personali non possono lasciare il vostro perimetro. Il registro dei trattamenti si riduce ai vostri propri sistemi — nessuna dichiarazione di trasferimento, nessun articolo 28 con un prestatore cloud IA, nessun rischio di trasferimento fuori dall’UE legato all’inferenza.

Per i vostri revisori

La prova di riservatezza dei dati è architetturale, non contrattuale. Un revisore può verificare, all’ispezione della configurazione del sistema, che nessun adattatore di rete esterno sia attivato. La catena di audit SHA-256 prova che ogni documento è stato elaborato conformemente alle politiche definite. Il filtraggio PII è registrato per ogni documento ingerito.

Per il vostro CTO

Un unico binario da deployare, da mantenere, e da verificare. Nessuno stack di inferenza separato, nessun servizio di embedding esterno, nessuna pipeline di sincronizzazione tra componenti distribuiti. La riduzione della complessità operativa è direttamente proporzionale alla riduzione della superficie di attacco.


Ciò che si rinuncia scegliendo il RAG privato — e come rispondervi

Qualsiasi decisione architetturale ha delle contropartite. La trasparenza su queste contropartite è necessaria per fare una scelta informata.

La capacità di ragionamento dei migliori modelli cloud. GPT-4o, Claude Opus, Gemini Ultra: i modelli di punta dei grandi fornitori offrono capacità di ragionamento che i modelli locali 7B-13B non raggiungono per tutti i compiti. Per domande documentali dirette, riassunti, estrazioni strutturate — i modelli locali sono del tutto competenti. Per compiti di ragionamento complesso o di sintesi di catene di documenti molto lunghe, la differenza può essere percepibile. Per queste analisi complesse, il RAG Agentivo offre un’alternativa locale: moltiplicando i passaggi di recupero mirati, compensa parzialmente il divario di ragionamento senza ricorrere a un modello cloud.

Risposta: La configurazione ibrida di Lexiane permette di conservare gli embedding e l’archiviazione in locale — i dati sorgente non escono mai — delegando al tempo stesso la generazione a un LLM cloud su frammenti di contesto anonimizzati. I vostri documenti grezzi rimangono nel vostro perimetro. Il LLM cloud riceve estratti.

La velocità di generazione senza GPU dedicata. Un LLM 7B quantizzato su CPU genera tra 5 e 15 token al secondo secondo l’hardware — percepibile su risposte lunghe, accettabile su richieste documentali standard. Con una GPU NVIDIA o AMD, lo stesso modello raggiunge 40-80 token al secondo.

Risposta: Per i deployment dove la latenza di generazione è critica, una GPU è raccomandata. Per i casi d’uso asincroni — estrazione in batch, analisi di corpus, generazione differita — la CPU è sufficiente.

L’aggiornamento dei modelli. I modelli cloud vengono aggiornati automaticamente dai fornitori — il che apporta regolarmente miglioramenti di performance. I modelli locali evolvono quando si decide di aggiornarli — il che è un vincolo operativo, ma anche una garanzia di stabilità comportamentale.

Risposta: L’ecosistema dei modelli open-source (Mistral, LLaMA, Phi) progredisce rapidamente. L’aggiornamento di un modello locale si traduce in una sostituzione di file e un riavvio del servizio — senza modifica della pipeline, senza re-indicizzazione del corpus.


Deployare il vostro RAG privato

La configurazione di riferimento air-gapped

Lexiane viene fornito con una configurazione di riferimento air-gapped completa e compilabile — un progetto reale, non un esempio di documentazione. Questa configurazione include il file TOML di riferimento, le variabili d’ambiente documentate, le dipendenze esplicitamente elencate, e le istruzioni di pre-scaricamento dei modelli.

Migrare dal cloud verso il RAG privato

L’architettura modulare di Lexiane rende questa migrazione strutturalmente semplice. Se avete iniziato con una configurazione cloud — OpenAI per gli embedding e la generazione — la migrazione verso il RAG privato si traduce nella sostituzione degli adattatori cloud con i loro equivalenti locali nel file di configurazione. La pipeline non cambia. La logica di business non cambia.

L’unica operazione sostanziale: ricalcolare gli embedding del vostro corpus con il modello locale, poiché gli embedding OpenAI e gli embedding Candle non sono comparabili. Questa re-indicizzazione è un’operazione pianificabile, senza interruzione di servizio sulla versione cloud durante la transizione.

Prerequisiti hardware

ConfigurazioneCPURAMGPUCaso d’uso
Embedded / edge4 core ARM648 GBNoCorpus < 10.000 documenti, richieste occasionali
Server senza GPU8 core x86_6432 GBNoCorpus medio, generazione asincrona accettabile
Server con GPU8 core x86_6432 GBNVIDIA 16 GB VRAMCorpus voluminoso, generazione in tempo reale
Infrastruttura esistenteIl vostro cluster PostgreSQLSecondo caricopgvector integrato nel vostro stack

Domande frequenti

È possibile garantire che nessun log o telemetria esca dal perimetro? Lexiane non incorpora alcun meccanismo di telemetria. Non c’è nessun “phone home”, nessuna raccolta di metriche d’uso, nessuna segnalazione di errori verso un servizio esterno. I log applicativi passano attraverso il framework tracing — configurabili, filtrabili, e diretti verso i vostri sistemi di raccolta interni. Nessuna emissione di dato verso l’esterno è possibile nella configurazione air-gapped.

I modelli Mistral.rs possono essere sostituiti da modelli interni o modelli specializzati? Sì. La porta LLMEngine è un’interfaccia di astrazione. Qualsiasi modello compatibile con i formati supportati da Mistral.rs può essere utilizzato. Se la vostra organizzazione ha addestrato o fine-tuned un modello specializzato sul vostro dominio — diritto, medicina, ingegneria —, può sostituire il modello di default senza modifica della pipeline.

Come gestire gli aggiornamenti di sicurezza dei modelli in un ambiente air-gapped? I modelli sono file statici caricati all’avvio. Un aggiornamento si traduce in una sostituzione di file sulla vostra infrastruttura — operazione pianificabile, reversibile, senza connettività esterna. Per gli aggiornamenti del binario Lexiane stesso, il processo è identico: trasferimento del binario tramite i canali sicuri della vostra politica di aggiornamento software.

Il RAG privato supporta lo streaming delle risposte? Sì. Il server HTTP integrato espone un’interfaccia SSE (Server-Sent Events) che trasmette le risposte token per token — anche in modalità di inferenza locale. L’esperienza utente è comparabile a quella di un’API cloud in termini di fluidità percepita.

Come integrare Lexiane in un ambiente air-gapped che non autorizza binari non firmati? Lexiane può essere compilato dal suo codice sorgente nella vostra propria catena di build, nel vostro perimetro, con la vostra toolchain qualificata — incluso Ferrocene se la vostra politica di certificazione lo impone. Il binario prodotto è firmato dalla vostra propria infrastruttura di firma del codice, secondo le vostre politiche interne.

È possibile utilizzare Lexiane come pipeline di elaborazione dati pura, senza interfaccia conversazionale? Sì. Lexiane può essere deployato senza interfaccia di generazione — unicamente per l’ingestione, il filtraggio PII, l’indicizzazione vettoriale, e la costruzione del grafo di conoscenza. La pipeline di elaborazione è indipendente dallo strato di generazione. È la modalità adatta alla costituzione di una base documentale strutturata, prima di decidere come interrogarla.


Parliamo del vostro perimetro.

Ogni deployment di RAG privato ha i propri vincoli specifici: classificazione dei dati, riferimento di conformità applicabile, infrastruttura esistente, volume documentale, requisiti di performance. Non proponiamo configurazioni standard per vincoli che non lo sono.

Proponiamo uno scambio sul vostro ambiente concreto — i vostri dati, la vostra infrastruttura, i vostri obblighi regolatori — e la configurazione di RAG privato che vi corrisponde.

Cosa potete aspettarvi:

  • Una risposta entro 48 ore lavorative
  • Un interlocutore tecnico che conosce i vincoli degli ambienti air-gapped, dei settori regolamentati, e della certificazione software
  • Una valutazione onesta dell’adeguatezza tra il vostro bisogno e il RAG privato Lexiane — incluso se la configurazione ibrida è più pertinente per il vostro caso

→ Contattaci

Nessun impegno commerciale. Una conversazione sul vostro perimetro.

Richiedere l'accesso al Core Auditable

Iscrivetevi per essere informati dell'apertura del programma di audit del nostro Core. Conformemente alla nostra informativa sulla privacy, il vostro indirizzo e-mail professionale sarà utilizzato esclusivamente per questa comunicazione tecnica, senza alcun utilizzo commerciale successivo. Accesso distribuito tramite registro privato sicuro.

Contattaci