Können wir garantieren, dass keine Logs oder Telemetrie den Perimeter verlassen?

Ja. In Lexiane gibt es keinen Telemetriemechanismus: keinen Home-Call, keine Nutzungsmetriken, keine externe Fehlerberichterstattung. Logs werden über das tracing-Framework erzeugt und ausschließlich an die von Ihnen intern definierten Systeme weitergeleitet. Das Binär öffnet keine ausgehende Verbindung.

Können die Mistral.rs-Modelle durch spezialisierte Modelle ersetzt werden?

Ja. Der LLMEngine-Port ist eine Abstraktionsschnittstelle: Jedes mit Mistral.rs kompatible Modell kann verwendet werden, einschließlich fein abgestimmter oder domänenspezifischer Modelle, ohne jegliche Änderung an der Pipeline. Der Austausch erfolgt auf Konfigurationsebene.

Unterstützt das private RAG die Antwort-Streaming-Funktion?

Ja. Der HTTP-Server stellt eine SSE-Schnittstelle (Server-Sent Events) bereit, die Antworten Token für Token überträgt. Dies gilt auch für den lokalen Inferenzmodus — Streaming ist nicht von einer externen API abhängig.

Wie kann Lexiane in einer Air-Gapped-Umgebung integriert werden, die keine unsignierten Binärdateien erlaubt?

Lexiane kann aus dem Quellcode innerhalb Ihrer eigenen Build-Kette kompiliert werden, unter Verwendung Ihres qualifizierten Toolchains — einschließlich Ferrocene, falls erforderlich. Das resultierende Binär kann dann durch Ihre eigene Code-Signing-Infrastruktur vor dem Deployment signiert werden.

Kann Lexiane als reine Datenverarbeitungspipeline ohne Gesprächsschnittstelle verwendet werden?

Ja. Lexiane kann ausschließlich für Ingestion, PII-Filterung, Vektorindizierung und den Aufbau von Wissensgraphen eingesetzt werden. Die Verarbeitungspipeline ist unabhängig von der Generierungsschicht und kann aktiviert werden, ohne einen Gesprächsendpunkt bereitzustellen.

Privates RAG & Lokaler KI-Assistent | On-Premise LLM

Organisationen, die sensible Daten verarbeiten, stehen vor einem scheinbaren Widerspruch: Die leistungsfähigsten KI-Systeme setzen eine Verbindung zu Cloud-Diensten voraus, während ihre regulatorischen, operationellen oder strategischen Einschränkungen erfordern, dass ihre Daten lokal bleiben. Die meisten Lösungen schlagen vor, diesen Widerspruch durch einen Vertrag zu lösen — eine Vertraulichkeitsklausel, eine Verpflichtung zur Nicht-Nutzung der Daten, ein Konformitätslabel.

Lexiane löst ihn durch Architektur.

Im privaten RAG-Modus wird die gesamte Dokumentenverarbeitung — Parsing, Chunking, Vektorisierung, LLM-Inferenz, Speicherung, Abruf, Generierung — in einem einzigen Binär auf Ihrer Infrastruktur ausgeführt, ohne dass ein einziges Byte Ihrer Dokumente Ihr Netzwerkperimeter überschreitet. Das ist keine Richtlinie. Es ist eine physische Eigenschaft des Systems.

Was “privat” wirklich bedeutet

Der KI-Markt hat die Bedeutung des Wortes “privat” nach und nach verwässert. Es ist nützlich, präzise Unterscheidungen wiederherzustellen, da sie konkrete rechtliche, operationelle und regulatorische Konsequenzen haben.

Cloud-Lösung mit Vertraulichkeitsverpflichtungen. Ihre Daten werden auf der Infrastruktur eines Drittdienstleisters verarbeitet — in seiner geografischen Zone, auf seinen Servern, durch seine Modelle. Der Dienstleister verpflichtet sich vertraglich, Ihre Daten nicht zum Training seiner Modelle zu verwenden, sie in einer definierten Region aufzubewahren und sie auf Anfrage zu löschen. Die Garantie beruht auf dem Vertrauen in die Vertragseinhaltung, auf der Fähigkeit des Audits, einen Verstoß zu erkennen, und auf der Stabilität der Nutzungsbedingungen im Laufe der Zeit.

On-Premise-Lösung mit externen Inferenzaufrufen. Die Infrastruktur befindet sich in Ihrem Rechenzentrum. Das Sprachmodell wird jedoch auf einer externen API gehostet — OpenAI, Anthropic oder einem Cloud-Dienst Ihres Lösungsanbieters. Ihre Dokumente werden lokal gechunkter und vektorisiert, aber die Kontextfragmente werden bei jeder Generierung an das externe LLM übermittelt. Die Daten residieren nicht bei einem Dritten, aber sie passieren ihn bei jeder Anfrage.

Echtes Air-Gapped — kein ausgehender Fluss. Die Infrastruktur befindet sich in Ihrem Perimeter. Das Sprachmodell läuft in Ihrem Perimeter. Die Embeddings werden in Ihrem Perimeter berechnet. Der Vektorspeicher befindet sich in Ihrem Perimeter. Es gibt keinen ausgehenden Netzwerkaufruf — nicht weil eine Firewall ihn blockiert, sondern weil das System strukturell keinen durchführt. Ihre Daten können Ihren Perimeter nicht verlassen, auch nicht bei einer Firewall-Fehlkonfiguration.

Das private RAG von Lexiane ist die dritte Kategorie. Die Garantie ist nicht vertraglich. Sie ist architektonisch — und verifizierbar.

Die vollständige lokale Stack

Ein wirklich privates RAG erfordert, dass jede Komponente der Pipeline über eine lokale Implementierung verfügt. Es reicht nicht aus, die Daten lokal zu speichern, wenn die Inferenz einen externen Dienst aufruft. Es reicht nicht aus, ein lokales LLM zu haben, wenn die Embeddings über eine Cloud-API berechnet werden. Lexiane ist die einzige RAG-Engine, die den gesamten Stack in einem einzigen Binär kompiliert.

Lokale LLM-Inferenz — Mistral.rs

Mistral.rs ist eine hochleistungsfähige LLM-Inferenz-Engine in Rust, die direkt in das Lexiane-Binär kompiliert wird. Es gibt keinen parallelen Ollama-Prozess, keinen separaten vLLM-Server, keinen internen HTTP-Aufruf — die Inferenz ist im Binär, genau wie der Rest der Pipeline.

Mistral.rs unterstützt Modelle der Mistral-Familie, LLaMA 3, Phi und ihre quantifizierten Derivate (GGUF, GGML). Die Quantifizierung ermöglicht die Ausführung von 7B- bis 13B-Parametermodellen auf Servern ohne dedizierte GPU — mit für die meisten dokumentarischen Anwendungsfälle zufriedenstellenden Generierungsleistungen. Mit einer NVIDIA- oder AMD-GPU erreichen dieselben Modelle Generierungsdurchsätze, die mit Standard-Cloud-APIs vergleichbar sind.

Die Modellwahl ist eine Konfigurationsentscheidung, keine Code-Entscheidung. Das Ändern des lokalen Modells modifiziert nicht die Pipeline — es modifiziert die TOML-Datei und die beim Start geladenen Modelldateien.

Embedding-Berechnung — Candle

Candle ist das Machine-Learning-Framework von Hugging Face, in Rust geschrieben, in dasselbe Binär kompiliert. Es erzeugt die Vektorrepräsentationen von Dokumenten und Anfragen vollständig lokal. Die Embedding-Modelle — E5-multilingual, BAAI/bge oder jedes kompatible Modell — werden aus dem lokalen Dateisystem geladen.

Die lokale Embedding-Generierung bietet einen oft vernachlässigten operationellen Vorteil: Sie ist deterministisch und stabil. Cloud-Embedding-Modelle können von ihrem Anbieter einseitig aktualisiert werden, was zuvor berechnete Embeddings invalidiert und eine vollständige Neuindexierung des Korpus erfordert. Mit Candle ist das Modell in Ihrer Infrastruktur fixiert — es entwickelt sich, wenn Sie es entscheiden, nicht wenn Ihr Anbieter ein Update veröffentlicht.

Natives Dokumentenparse

Der Dokumentparser von Lexiane ist reines Rust. Er greift auf keine Python-Bibliothek, keinen externen Dienst, keinen Sekundärprozess zurück. PDF, Excel (.xlsx, .xls, .ods), PowerPoint (.pptx), HTML, Markdown, Klartext: Alle Formate werden im selben Binär, durch denselben Prozess, ohne Netzwerk verarbeitet.

Lokale Vektorspeicherung

Drei Optionen für die lokale Vektorspeicherung je nach Volumen- und Infrastruktureinschränkungen:

SQLite — für eingebettete Deployments oder Korpora mittlerer Größe. Null zusätzliche Infrastruktur, null Netzwerklatenz, null Verwaltung. Der Vector Store ist eine Datei auf Ihrem Dateisystem.

pgvector — PostgreSQL-Erweiterung für Organisationen, die bereits über einen PostgreSQL-Cluster in ihrem Perimeter verfügen. Der Vektorindex koexistiert mit Ihren relationalen Daten im selben Cluster — eine einzige Infrastruktur zu verwalten, zu sichern und zu auditieren.

Qdrant — Dedizierte Vektordatenbank für umfangreiche Korpora, die für großskalige Indexierungs- und Abrufleistungen optimierte Leistungen erfordern. In Ihrer Infrastruktur deployed, bleibt sie in Ihrem Perimeter.

Lokale hybride Suche — Tantivy

Der Tantivy-Sparse-Index (BM25) ist im Binär integriert. Die hybride Suche — dense vektoriell nach semantischer Ähnlichkeit und sparse lexikalisch nach Termübereinstimmung — wird vollständig lokal ausgeführt. Es ist keine externe Suchinfrastruktur (Elasticsearch, OpenSearch) erforderlich.

Die Fusion der beiden Modalitäten durch Reciprocal Rank Fusion stellt sicher, dass weder semantische noch exakte lexikalische Übereinstimmungen verfehlt werden — ohne Netzwerkaufruf.

Was Sie wirklich deployen

Eine statische Binary für Linux. Eine TOML-Konfigurationsdatei. Vorher heruntergeladene Modelldateien. Das ist alles.

Kein Python-Interpreter. Kein Paketmanager. Keine virtuelle Maschine. Kein Sekundärprozess. Kein Discovery-Service. Kein zu kontaktierendes Container-Registry. Das System ist in einem völlig isolierten Netzwerk, ohne jeglichen Internet-Zugang, ab dem ersten Start betriebsbereit.

Die Datenschutzschichten

Die lokale Datenhaltung ist notwendig, aber nicht ausreichend. Lexiane fügt mehrere Schutzschichten hinzu, die auf Daten auch innerhalb des lokalen Perimeters wirken — gegen interne Lecks, unbefugte Zugriffe und Systemverhalten, das sensible Informationen exponieren könnte.

PII-Filterung vor jeder Vektorisierung

Der Personaldatenfilter operiert in erster Position in der Ingestion-Pipeline — vor dem semantischen Chunking, vor der Embedding-Berechnung, vor der Indexierung. Personenbezogene Daten, die in Ihren Dokumenten erkannt werden, werden gemäß den von Ihnen pro Kategorie definierten Richtlinien behandelt:

Kategorie	Beispiel	Verfügbare Richtlinie
E-Mail-Adressen	`max.mustermann@unternehmen.de`	Maskierung `[EMAIL]` · Löschung · Hashing
Telefonnummern	`+49 30 12345678`	Maskierung `[TELEFON]` · Löschung · Hashing
IBAN	`DE89 3704 0044...`	Maskierung `[IBAN]` · Löschung · Hashing
Sozialversicherungsnummern	`12 345678 A 123`	Maskierung `[SVN]` · Löschung · Hashing
IP-Adressen	`192.168.1.42`	Maskierung `[IP]` · Löschung · Hashing

Die typisierte Maskierung bewahrt den Informationstyp — was die semantische Kohärenz des Dokuments für die Suche erhält — und macht den Wert gleichzeitig im Vector Store, in den generierten Antworten und in den Protokollen unzugänglich.

Die angewandte Richtlinie wird im Audit-Trail für jedes verarbeitete Dokument aufgezeichnet.

Dokumentenzugangskontrolle vor der Generierung

In einem Deployment, das zwischen mehreren Teams oder mehreren Sensitivitätsstufen geteilt wird, stellt sich die Frage, wer auf was zugreifen kann, auf der Abrufstufe — nicht nur auf der Schnittstellenebene.

Der AccessControl-Port filtert die Abrufergebnisse gemäß den Rechten des anfragenden Benutzers bevor der Kontext an das LLM übermittelt wird. Ein Dokument, auf das ein Benutzer keinen Zugriff hat, wird nicht als Generierungskontext übermittelt — auch wenn es im Vector Store vorhanden und semantisch relevant für die Anfrage ist.

Diese Position in der Pipeline ist kritisch: Eine Zugangskontrolle, die nur auf der Benutzeroberfläche angewendet wird, lässt vertrauliche Dokumente durch das Sprachmodell fließen. Ein LLM, das ein Dokument in seinem Kontext erhalten hat, kann dessen Inhalt indirekt offenbaren, auch wenn die Antwort scheinbar nicht direkt darauf Bezug nimmt. Lexiane schneidet diesen Vektor vorgelagert ab.

Zwei Zugangskontrollmodelle werden unterstützt:

RBAC — Rechte werden durch die Rolle des Benutzers in der Organisation definiert
ABAC — Rechte werden durch Dokumentattribute definiert: Klassifikationsstufe, besitzendes Department, Veröffentlichungsdatum, Projektperimeter

SHA-256-Audit-Trail — unter Ihrer Kontrolle

Die kryptografische Audit-Kette zeichnet jede Pipeline-Aktion in Ihrer Infrastruktur auf — nicht in einem externen Protokollierungsdienst, nicht bei einem Drittanbieter. Das Register gehört Ihnen vollständig.

Jeder Eintrag ist mit dem SHA-256-Hash des vorherigen signiert. Jede nachträgliche Änderung bricht die Kette und ist mathematisch erkennbar. Im Falle eines Vorfalls — unbefugter Zugriff, Anfrage außerhalb des Bereichs, Injektionsversuch — ist die vollständige forensische Rekonstruktion aus der Kette möglich: Wer hat wann auf was zugegriffen, mit welchem Ergebnis.

Eingabe- und Ausgabe-Guardrails

Die Schutzmechanismen gegen Prompt-Injection (InputGuardrail) und die Antwortvalidierung (OutputGuardrail) operieren vollständig lokal. Eine schadhafte Anfrage wird blockiert, bevor sie das lokale LLM beansprucht. Eine Antwort, die sensible Daten einbeziehen oder den definierten Bereich überschreiten würde, wird abgefangen, bevor sie den Benutzer erreicht. Keiner dieser Prozesse erfordert einen Netzwerkaufruf.

Für wen ist privates RAG

Verteidigung und Nachrichtendienste

Verteidigungs- und Nachrichtendienstorganisationen operieren in Umgebungen, in denen die Vertraulichkeit von Daten nicht relativ ist — sie ist absolut. Ein klassifiziertes Dokument, das durch einen Cloud-Dienst fließt, auch momentan, auch verschlüsselt, stellt einen potenziellen Verstoß gegen die operationellen Sicherheitsregeln dar. Die Frage ist nicht, ob der Dienstleister vertrauenswürdig ist. Es ist, dass der Transit selbst inakzeptabel ist.

Lexiane wird in einem völlig isolierten Netzwerk deployed — SCIF, klassifiziertes Netzwerk, souveränes Rechenzentrum — ohne jegliche Konnektivitätsanforderung. Analysten befragen ihre sensiblen Dokumentenkorpora mit den Fähigkeiten eines Produktions-LLM, ohne dass eine Daten den Sicherheitsperimeter überschreitet. Der SHA-256-Audit-Trail zeichnet jeden Zugriff mit einer kryptografischen Rückverfolgbarkeit auf, die den strengsten Rückverfolgbarkeitsanforderungen genügt.

Gesundheitswesen und Medizinprodukte

Gesundheitsdaten unterliegen den strengsten Schutzvorschriften — DSGVO, HDS-Referenzwerk (Hébergement de Données de Santé) in Frankreich, europäische Richtlinien zu Gesundheitsdaten. Diese Vorschriften erfordern nicht nur eine Datenlokalisierung, sondern auch eine Zertifizierung der Hosting-Anbieter und Verarbeitungen.

Eine Gesundheitseinrichtung oder ein Medizinproduktehersteller, der einen Dokumentenassistenten für Patientendaten, klinische Studiendaten oder Pharmakovigilanz-Dokumente einsetzen möchte, kann sich nicht auf eine nicht HDS-zertifizierte Cloud-API stützen. Das private RAG von Lexiane verarbeitet diese Daten vollständig lokal — in Ihrer Infrastruktur, unter Ihrer Verarbeitungsverantwortung, ohne zwischengeschalteten Drittanbieter.

Die Zertifizierungsdimension ist ebenfalls relevant: IEC 62304 Ed. 2, deren Veröffentlichung für August 2026 geplant ist, wird Anforderungen an Software mit KI einführen. Lexiane ist die einzige RAG-Engine, die dafür konzipiert wurde, diesem Zertifizierungsrahmen gerecht zu werden — mit einem #![forbid(unsafe_code)]-Kern und Ferrocene-Kompatibilität.

Finanzen und Zentralbanken

Finanzinstitutionen unterliegen Datenlokalisierungs-, Entscheidungsrückverfolgbarkeits- und Betriebsresilienzpflichten — DSGVO, DORA, nationale Aufsichtsvorschriften. Die Verarbeitung interner sensibler Dokumente durch ein externes Cloud-LLM ist nicht nur eine Präferenzfrage: Es ist oft eine regulatorische Compliance-Frage, deren Nichteinhaltung die Haftung der Führungskräfte begründet.

Das private RAG von Lexiane ermöglicht den Einsatz eines Dokumentenassistenten auf regulatorischen Korpora, internen Verfahren, Risikoberichten, Kreditdossiers — vollständig lokal, mit kryptografischer Rückverfolgbarkeit jedes Zugriffs und einem PII-Filter, der Kundenpersonaldaten vor jeder Vektorisierung schützt.

Öffentlicher Sektor und Verwaltungen

Öffentliche Verwaltungen stehen vor zunehmenden Anforderungen an digitale Souveränität — NIS2, DSGVO, Orientierungen hin zu SecNumCloud-qualifizierten Lösungen. Die Verarbeitung von Bürgerdaten, sensiblen Dokumenten oder unter Berufsgeheimnis stehenden Informationen auf ausländischen Cloud-Infrastrukturen wirft rechtliche und strategische Fragen auf, die Verwaltungen nicht mehr ignorieren können.

Ein Air-Gapped-Deployment von Lexiane erfüllt diese Anforderungen von Natur aus: Es gibt keinen Datenfluss zu einem Drittanbieter, keine Abhängigkeit von einer Cloud-Infrastruktur, kein Risiko eines Datentransfers außerhalb des nationalen Territoriums. Digitale Souveränität ist keine deklarierte Richtlinie — sie ist eine physische Eigenschaft des Deployments.

Industrie und eingebettete Systeme

Industrielle Umgebungen teilen mit klassifizierten Umgebungen eine strukturelle Einschränkung: das häufige Fehlen permanenter Netzwerkkonnektivität. Ein isolierter Produktionsstandort, eine Offshore-Plattform, eine in einem Fahrzeug oder einem Luftfahrzeug eingebettete Ausrüstung — diese Systeme können nicht für ihren Betrieb von einer Cloud-API abhängen.

Lexiane läuft als statisches Binär ohne Netzwerkabhängigkeiten. Es kann Anfragen zu technischen Handbüchern, Wartungsverfahren, Produktwissensbasen beantworten — in einem Fahrzeug, auf einer Produktionslinie, auf einer isolierten industriellen Ausrüstung. Seine Abwesenheit eines Garbage Collectors garantiert ein deterministisches zeitliches Verhalten, das mit den Anforderungen von Echtzeitsystemen kompatibel ist.

Was privates RAG für Ihre Teams verändert

Für Ihren CISO

Die mit der Datenverarbeitung verbundene Angriffsfläche ist auf Ihren physischen Perimeter reduziert. Es gibt keine ausgehenden Datenflüsse zu überwachen, keine externe API zu auditieren, keinen Drittanbieter, dessen Sicherheitsrichtlinie verifiziert werden muss. Die Risikokartierung des KI-Systems wird durch Ihre bestehende Infrastruktur begrenzt.

Für Ihren DSB

Die DSGVO-Konformität beruht nicht auf einem Vertrag mit einem Auftragsverarbeiter. Sie ist durch Architektur garantiert: Personenbezogene Daten können Ihren Perimeter nicht verlassen. Das Verzeichnis der Verarbeitungstätigkeiten reduziert sich auf Ihre eigenen Systeme — keine Transfererklärung, kein Artikel 28 mit einem KI-Cloud-Anbieter, kein Risiko eines KI-inferenzbedingten Transfers außerhalb der EU.

Für Ihre Prüfer

Der Datenschutznachweis ist architektonisch, nicht vertraglich. Ein Prüfer kann durch Inspektion der Systemkonfiguration verifizieren, dass kein externer Netzwerkadapter aktiviert ist. Die SHA-256-Audit-Kette beweist, dass jedes Dokument gemäß den definierten Richtlinien verarbeitet wurde. Die PII-Filterung wird für jedes aufgenommene Dokument aufgezeichnet.

Für Ihren CTO

Ein einziges Binär zu deployen, zu pflegen und zu auditieren. Kein separater Inferenz-Stack, kein externer Embedding-Dienst, keine Synchronisations-Pipeline zwischen verteilten Komponenten. Die Reduzierung der operationellen Komplexität ist direkt proportional zur Reduzierung der Angriffsfläche.

Was Sie beim Wählen von privatem RAG aufgeben — und wie damit umgehen

Jede Architekturentscheidung hat Gegenleistungen. Transparenz über diese Gegenleistungen ist notwendig, um eine informierte Wahl zu treffen.

Die Reasoning-Fähigkeit der besten Cloud-Modelle. GPT-4o, Claude Opus, Gemini Ultra: Die Spitzenmodelle der großen Anbieter bieten Reasoning-Fähigkeiten, die lokale 7B-13B-Modelle nicht für alle Aufgaben erreichen. Für direkte Dokumentenfragen, Zusammenfassungen, strukturierte Extraktionen — lokale Modelle sind durchaus kompetent. Für komplexe Reasoning-Aufgaben oder die Synthese sehr langer Dokumentenketten kann der Unterschied wahrnehmbar sein.

Antwort: Die Hybrid-Konfiguration von Lexiane ermöglicht es, Embeddings und Speicherung lokal beizubehalten — die Quelldaten verlassen niemals Ihren Perimeter — während die Generierung für anonymisierte Kontextfragmente an ein Cloud-LLM delegiert wird. Ihre Rohdokumente bleiben in Ihrem Perimeter. Das Cloud-LLM erhält Auszüge. Für diese komplexen Analysen bietet das Agentische RAG eine lokale Alternative: Durch mehrere gezielte Abrufdurchläufe kompensiert es teilweise den Reasoning-Unterschied, ohne auf ein Cloud-Modell zurückzugreifen.

Die Generierungsgeschwindigkeit ohne dedizierte GPU. Ein quantifiziertes 7B-LLM auf CPU generiert je nach Hardware zwischen 5 und 15 Tokens pro Sekunde — bei langen Antworten wahrnehmbar, bei Standard-Dokumentenanfragen akzeptabel. Mit einer NVIDIA- oder AMD-GPU erreicht dasselbe Modell 40 bis 80 Tokens pro Sekunde.

Antwort: Für Deployments, bei denen die Generierungslatenz kritisch ist, wird eine GPU empfohlen. Für asynchrone Anwendungsfälle — Batch-Extraktion, Korpusanalyse, verzögerte Generierung — ist CPU ausreichend.

Die Modellaktualisierung. Cloud-Modelle werden von den Anbietern automatisch aktualisiert — was regelmäßig Leistungsverbesserungen bringt. Lokale Modelle entwickeln sich, wenn Sie entscheiden, sie zu aktualisieren — was eine operationelle Einschränkung, aber auch eine Garantie für Verhaltenstabilität ist.

Antwort: Das Open-Source-Modell-Ökosystem (Mistral, LLaMA, Phi) entwickelt sich schnell. Die Aktualisierung eines lokalen Modells bedeutet einen Dateiersatz und einen Service-Neustart — ohne Pipeline-Änderung, ohne Korpus-Neuindexierung.

Ihr privates RAG deployen

Die Air-Gapped-Referenzkonfiguration

Lexiane wird mit einer vollständigen und kompilierbaren Air-Gapped-Referenzkonfiguration geliefert — ein echtes Projekt, kein Dokumentationsbeispiel. Diese Konfiguration enthält die TOML-Referenzdatei, die dokumentierten Umgebungsvariablen, die explizit aufgelisteten Abhängigkeiten und die Anweisungen zum Vorherunterladen der Modelle.

Von der Cloud zum privaten RAG migrieren

Die À-la-carte-Architektur von Lexiane macht diese Migration strukturell einfach. Wenn Sie mit einer Cloud-Konfiguration gestartet haben — OpenAI für Embeddings und Generierung —, bedeutet die Migration zum privaten RAG den Ersatz der Cloud-Adapter durch ihre lokalen Äquivalente in der Konfigurationsdatei. Die Pipeline ändert sich nicht. Die Geschäftslogik ändert sich nicht.

Die einzige wesentliche Operation: Die Embeddings Ihres Korpus mit dem lokalen Modell neu berechnen, da OpenAI-Embeddings und Candle-Embeddings nicht vergleichbar sind. Diese Neuindexierung ist eine planbare Operation, ohne Dienstunterbrechung auf der Cloud-Version während des Übergangs.

Hardware-Anforderungen

Konfiguration	CPU	RAM	GPU	Anwendungsfall
Eingebettet / Edge	4 Kerne ARM64	8 GB	Nein	Korpus < 10.000 Dokumente, gelegentliche Anfragen
Server ohne GPU	8 Kerne x86_64	32 GB	Nein	Mittlerer Korpus, akzeptable asynchrone Generierung
Server mit GPU	8 Kerne x86_64	32 GB	NVIDIA 16 GB VRAM	Umfangreicher Korpus, Echtzeit-Generierung
Bestehende Infrastruktur	Ihr PostgreSQL-Cluster	—	Je nach Last	pgvector in Ihren Stack integriert

Häufige Fragen

Kann garantiert werden, dass kein Protokoll oder keine Telemetrie den Perimeter verlässt? Lexiane enthält keinen Telemetriedienst. Es gibt keinen Home-Call, keine Nutzungsmetrikerfassung, keine Fehlerberichterstattung an einen externen Dienst. Anwendungsprotokolle gehen durch das tracing-Framework — konfigurierbar, filterbar und an Ihre internen Erfassungssysteme gerichtet. Keine Datenausgabe nach außen ist in der Air-Gapped-Konfiguration möglich.

Können Mistral.rs-Modelle durch maßgeschneiderte oder spezialisierte Modelle ersetzt werden? Ja. Der LLMEngine-Port ist eine Abstraktionsschnittstelle. Jedes Modell, das mit den von Mistral.rs unterstützten Formaten kompatibel ist, kann verwendet werden. Wenn Ihre Organisation ein auf Ihre Domäne spezialisiertes oder feinabgestimmtes Modell — Recht, Medizin, Ingenieurwesen — trainiert hat, kann es das Standardmodell ohne Pipeline-Änderung ersetzen.

Wie werden Sicherheitsupdates für Modelle in einer Air-Gapped-Umgebung verwaltet? Modelle sind statische Dateien, die beim Start geladen werden. Eine Aktualisierung bedeutet einen Dateiersatz auf Ihrer Infrastruktur — eine planbare, rückgängig machbare Operation ohne externe Konnektivität. Für Aktualisierungen des Lexiane-Binärs selbst ist der Prozess identisch: Übertragung des Binärs über die sicheren Kanäle Ihrer Software-Update-Richtlinie.

Unterstützt privates RAG das Streaming von Antworten? Ja. Der integrierte HTTP-Server exponiert eine SSE-Schnittstelle (Server-Sent Events), die Antworten token-für-token überträgt — auch im lokalen Inferenzmodus. Die Benutzererfahrung ist in Bezug auf die wahrgenommene Flüssigkeit mit einer Cloud-API vergleichbar.

Wie wird Lexiane in eine Air-Gapped-Umgebung integriert, die keine unsignierten Binäre erlaubt? Lexiane kann aus seinem Quellcode in Ihrer eigenen Build-Kette, in Ihrem Perimeter, mit Ihrer qualifizierten Toolchain kompiliert werden — einschließlich Ferrocene, wenn Ihre Zertifizierungsrichtlinie es erfordert. Das produzierte Binär wird durch Ihre eigene Code-Signing-Infrastruktur gemäß Ihren internen Richtlinien signiert.

Kann Lexiane als reine Datenverarbeitungs-Pipeline ohne Konversationsschnittstelle verwendet werden? Ja. Lexiane kann ohne Generierungsschnittstelle deployed werden — nur für Aufnahme, PII-Filterung, Vektorindexierung und Wissensgraphaufbau. Die Verarbeitungs-Pipeline ist unabhängig von der Generierungsschicht. Das ist der für die Erstellung einer strukturierten Dokumentenbasis geeignete Modus, bevor entschieden wird, wie sie zu befragen ist.

Sprechen wir über Ihren Perimeter.

Jedes private RAG-Deployment hat seine spezifischen Einschränkungen: Datenklassifikation, anwendbares Compliance-Referenzwerk, bestehende Infrastruktur, Dokumentenvolumen, Leistungsanforderungen. Wir bieten keine Standardkonfiguration für Anforderungen an, die es nicht sind.

Wir bieten einen Austausch über Ihre konkrete Umgebung — Ihre Daten, Ihre Infrastruktur, Ihre regulatorischen Pflichten — und die entsprechende private RAG-Konfiguration an.

Was Sie erwarten können:

Eine Antwort innerhalb von 48 Geschäftsstunden
Einen technischen Ansprechpartner, der die Einschränkungen von Air-Gapped-Umgebungen, regulierten Sektoren und der Softwarezertifizierung kennt
Eine ehrliche Bewertung der Übereinstimmung zwischen Ihrem Bedarf und dem privaten Lexiane-RAG — einschließlich wenn die Hybrid-Konfiguration für Ihren Fall relevanter ist.

→ Kontakt aufnehmen

Privates RAG & Lokaler KI-Assistent | On-Premise LLM | Lexiane