Zum Inhalt springen
Souveräne Dokumenten-Datenengineering- und Vektorisierungs-Pipeline

KI-Datenengineering | Souveräne Dokumentenverarbeitung | Lexiane

Souveräne Dokumentenverarbeitungs-Pipeline: Rust-Parsing, semantisches Chunking, PII-Filter, GraphRAG, SHA-256-Prüfpfad. Null Cloud-Abhängigkeit.

Lexiane ist eine End-to-End-Dokumentenverarbeitungs-Pipeline, konzipiert für Organisationen, die ihre Daten nicht in die Hände Dritter geben können. Aufnahme, Parsing, semantisches Chunking, Erkennung personenbezogener Daten, Anreicherung, Vektorindexierung, kryptografischer Audit: Jeder Schritt wird in einem einzigen Binär auf Ihrer Infrastruktur ohne Netzwerkaufrufe ausgeführt.


Das Problem, das Ihre Daten den meisten KI-Lösungen bereiten

RAG-Plattformen und KI-Tools am Markt stellen Sie vor eine strukturell ungünstige Wahl: Ihre Dokumente in die Cloud eines Drittanbieters zu senden oder auf künstliche Intelligenz zu verzichten.

Diese Wahl wird als technischer Kompromiss präsentiert. In Wirklichkeit ist es eine Risikoübertragung — rechtlich, regulatorisch, strategisch. Ihre internen Verfahren, Verträge, Patientendaten, Finanzberichte, technischen Spezifikationen: Sobald sie Ihren Perimeter verlassen, verlieren Sie die Kontrolle darüber, was mit ihnen geschieht.

Lexiane geht von einem entgegengesetzten Prinzip aus: Die Verarbeitung Ihrer Daten erfolgt dort, wo sie sich befinden, mit den Garantien, die Sie definiert haben — nicht denen, die Ihr Anbieter Ihnen erlaubt.


Eine vollständige Dokumentenverarbeitungs-Pipeline ohne externe Abhängigkeiten

Natives Parsing Ihrer Dokumentenformate

Das erste Glied einer qualitativ hochwertigen Datenverarbeitung ist die Fähigkeit, Ihre Dokumente in ihren Produktionsformaten so zu lesen, wie sie sind. Der Parser von Lexiane ist in reinem Rust geschrieben — keine Python-Abhängigkeit, kein Drittanbieter-Service, kein Netzwerkaufruf.

Nativ unterstützte Formate:

FormatTypische Anwendungsfälle
PDFBerichte, Verträge, Spezifikationen, regulatorische Dossiers
Excel (.xlsx, .xls, .ods)Datentabellen, Budgets, Inventare, Referenzwerke
PowerPoint (.pptx)Präsentationen, Schulungsmaterialien, strategische Folien
HTMLIntranet-Seiten, Wiki-Exporte, Web-Dokumentation
MarkdownTechnische Dokumentation, Wissensbasen, strukturierte Notizen
KlartextNotizen, exportierte E-Mails, Protokolle, halbstrukturierte Daten

Ein einziges Binär liest, parst und indiziert Ihre Dokumente. Kein Python-Interpreter zu pflegen, kein Sekundärserver zu betreiben, keine zusätzliche Angriffsfläche.


Semantisches Chunking mit konfigurierbarer Granularität

Die Qualität einer Dokumentenverarbeitung hängt nicht nur davon ab, was Sie lesen — sondern davon, wie Sie es aufteilen. Schlechtes Chunking erzeugt Fragmente, die Ideen mitten in einem Satz abschneiden, eine Frage von ihrer Antwort trennen oder die Kohärenz einer Tabelle aufbrechen.

Die Chunking-Engine von Lexiane arbeitet mit konfigurierbarer Präzision:

  • Größe und Überlappung angepasst an die Natur Ihres Korpus
  • Respektierung linguistischer Grenzen bis zum Unicode-Graphem — Ihre Dokumente auf Deutsch, Arabisch, Chinesisch oder Japanisch werden korrekt aufgeteilt
  • Eltern-Kind-Hierarchie: Jedes Fragment behält eine Referenz auf seinen übergeordneten Kontext, der bei der Generierung abrufbar ist, um die vollständige Passage wiederherzustellen
  • Rekursives semantisches Chunking: Das System respektiert die Dokumentstruktur — Absätze, Abschnitte, Listen — anstatt mechanisch Zeichen zu zählen

Das Ergebnis: Fragmente, die unabhängig Sinn ergeben, präzise indexierbar und bei der Restitution kontextualisierbar sind.


Automatische Anreicherung vor der Indexierung

Jedes Dokumentenfragment durchläuft vor der Vektorisierung eine Anreicherungsphase. Ziel: Die Abrufqualität zu verbessern, indem jedem Segment Metadaten hinzugefügt werden, die es präziser auffindbar machen.

Angewandte Anreicherungen:

  • Anzahl der Tokens und Wörter des Segments
  • Automatische Extraktion repräsentativer Schlüsselwörter
  • Zusammenfassung des Segments für die hybride Suche
  • Angereicherter Inhalt (Kontext des übergeordneten Dokuments in den Chunk injiziert)
  • Rückverfolgbarkeitskennungen (Quelldokument, Position, Inhalts-Hash)

Diese Anreicherungen sind integraler Bestandteil der Ingestion-Pipeline — sie gelten für jedes Dokument ab der ersten Indexierung, ohne manuellen Schritt.


Extraktion von Wissensgraphen (GraphRAG)

Für Korpora, die reich an Beziehungen sind — regulatorische Dokumente, Projektarchive, fachliche Wissensbasen, Audit-Berichte —, reicht eine alleinige Vektorsuche nicht aus. Sie findet ähnliche Passagen. Sie versteht nicht die Verbindungen zwischen den darin erwähnten Entitäten.

Die GraphRAG-Engine von Lexiane extrahiert automatisch Wissenstripelts aus Ihren Dokumenten — Subjekt, Prädikat, Objekt — und speichert sie in einem persistenten RDF-Triplestore. Die so aufgebaute Basis versteht die Beziehungen zwischen Personen, Organisationen, Projekten, Daten und Vorschriften.

Was dies ermöglicht:

“Welche Lieferanten werden in den Audits von 2023 UND in den aktiven Verträgen erwähnt?”

“Welche Projekte sind mit diesem Verantwortlichen und welcher Regelung verknüpft?”

“Identifizierung der Abhängigkeitsketten zwischen den in diesen 500 technischen Datenblättern genannten Komponenten.”

Die Multi-Hop-Traversierung des Graphen produziert Informationen, die die Vektorsuche allein strukturell nicht erreichen kann.


Datenschutz durch Architektur

PII-Filterung integriert in die Pipeline

Der PII-Filter (Personally Identifiable Information) von Lexiane operiert vor jeder Vektorisierung, jeder Indexierung und jedem Aufruf eines Sprachmodells. Keine sensiblen Daten erreichen Ihren Vector Store oder Ihr LLM, ohne gemäß Ihren Regeln verarbeitet worden zu sein.

Erkannte personenbezogene Daten:

DatentypBeispiele
E-Mail-Adressenmax.mustermann@unternehmen.de
TelefonnummernNationale und internationale Formate
IBAN und BankdatenDE89 3704 0044 0532 0130 00
SozialversicherungsnummernDeutsche und europäische Formate
IP-AdressenIPv4 und IPv6
Konfigurierbare KennungenGemäß Ihrem fachlichen Referenzwerk

Konfigurierbare Verarbeitungsrichtlinien:

  • Typisierte Maskierung — Ersatz durch einen semantischen Platzhalter [EMAIL], [IBAN], [TELEFON]: Der Informationstyp bleibt lesbar, der Wert verschwindet
  • Löschung — vollständige Entfernung des Werts aus dem Fragment
  • Hashing — Ersatz durch den kryptografischen Fingerabdruck des Werts: ermöglicht Referenzkonsistenz ohne Exposition der Daten

Diese Architektur garantiert DSGVO-Konformität durch Architektur und nicht durch Prozess: Die Daten erreichen das Speichersystem nicht, bevor sie verarbeitet wurden. Das ist keine Verhaltensregel. Es ist eine mechanische Einschränkung der Pipeline.


Rückverfolgbarkeit und kryptografischer Audit bei jedem Schritt

Eine unverletzliche SHA-256-Integritätskette

Jede Aktion der Verarbeitungs-Pipeline wird in einer kryptografischen Audit-Kette aufgezeichnet. Jeder Eintrag ist mit dem SHA-256-Hash des vorherigen signiert — jede nachträgliche Änderung eines Ereignisses ist mathematisch erkennbar.

In der Kette aufgezeichnete Ereignisse:

  • Zur Aufnahme eingereichtes Dokument (Kennung, Inhalts-Hash, Zeitstempel)
  • Erstellte Fragmente und ihre Chunking-Parameter
  • Generierte Embeddings (Modell, Dimension, Datum)
  • Für den Wissensgraphen extrahierte Entitäten
  • Erkannte personenbezogene Daten und angewandte Richtlinie
  • Benutzeranfragen und konsultierte Dokumente
  • Erzeugte Antworten und ihre Quellen

Das ist keine Protokollierungsfunktion. Es ist eine strukturelle Integritätsgarantie: Sie können jederzeit beweisen, dass die Verarbeitung genau wie aufgezeichnet stattgefunden hat und dass kein Eintrag nachträglich geändert wurde.

Für einen Prüfer, einen Compliance-Beauftragten oder einen Regulierer stellt diese Kette einen unabhängigen technischen Nachweis Ihrer erklärten Prozesse dar.


Qualitätsbewertung am Pipeline-Ausgang

Gemessene Metriken, keine Annahmen

Die Qualität einer Dokumentenverarbeitungs-Pipeline wird nicht bei der Installation deklariert — sie wird in der Produktion auf Ihren realen Daten gemessen. Lexiane integriert RAGAS-Bewertungsmetriken am Pipeline-Ausgang:

  • Treue: Ist die erzeugte Antwort in den abgerufenen Quellen verankert?
  • Relevanz: Antworten die abgerufenen Quellen tatsächlich auf die gestellte Frage?
  • Kontextpräzision: Sind die abgerufenen Fragmente spezifisch relevant?
  • Kontextabdeckung: Hat die Pipeline alle verfügbaren Informationen abgerufen?

Eingabe-Guardrails erkennen Prompt-Injection-Versuche und Anfragen außerhalb des Geltungsbereichs, bevor sie die Pipeline erreichen. Die Ausgabe-Guardrails prüfen die erzeugte Antwort vor der Übermittlung an den Benutzer.

Das Relevanztor bewertet den globalen Vertrauensscore des abgerufenen Kontexts. Wenn die Quellen nicht zuverlässig genug sind, um eine begründete Antwort zu liefern, enthält sich das System — anstatt eine schlecht verankerte Antwort zu generieren. Das ist das Gegenteil von Halluzination: ein System, das weiß, wann es nicht weiß. Für Fälle, in denen mehrere Abrufdurchläufe erforderlich sind, automatisiert das Agentische RAG diesen Prozess.


Lexiane als autonome Datenverarbeitungs-Pipeline

Diese Fähigkeiten sind nicht auf konversationelle RAG-Anwendungsfälle beschränkt. Lexiane kann als reine Datenverarbeitungs-Pipeline eingesetzt werden, unabhängig von jeder Generierungsschnittstelle:

  • Massenextraktion und -normalisierung von Dokumenten aus Ihren bestehenden Archiven
  • PII-Erkennung und Anonymisierung an einem Korpus vor regulatorischer Migration oder Archivierung
  • Aufbau eines Wissensgraphen aus Ihren Referenzdokumenten
  • Kryptografischer Audit all Ihrer Dokumentenflüsse
  • Vektorindexierung Ihrer Basis für semantische Suche ohne LLM

Dieselbe architektonische Strenge, derselbe Audit-Trail, derselber Datenschutz — auf Ihre bestehenden Verarbeitungsflüsse angewendet, ohne Konversationsschnittstelle, wenn Sie sie nicht benötigen.


Drei Deployment-Modi, eine einzige Pipeline

Air-Gapped — absolute Souveränität

Parsing, Chunking, Anreicherung, PII-Filterung, Vektorindexierung und Graphaufbau: Die gesamte Pipeline läuft lokal in einem einzigen Binär. Null Netzwerkaufrufe. Null ausgehende Daten. Deploybar in einem klassifizierten Netzwerk, einem souveränen Rechenzentrum oder einem Industriestandort ohne permanente Konnektivität.

Cloud — maximale Leistung

Cloud-Embedding-Modelle und -LLMs (OpenAI, Anthropic) werden über Umgebungsvariablen aktiviert. Die Pipeline bleibt identisch — nur die Adapter ändern sich. Wenn Sie morgen OpenAI durch ein selbst gehostetes Modell ersetzen, ändert sich Ihre Verarbeitungs-Pipeline nicht um eine Zeile.

Hybrid — sensible Daten vor Ort, Generierung in der Cloud

Embeddings werden lokal aus Ihren Dokumenten berechnet. Die Generierung wird an ein Cloud-Modell nur für anonymisierte Kontextfragmente delegiert. Ihre Quelldokumente verlassen niemals Ihren Perimeter. Das Cloud-LLM erhält Auszüge — nicht Ihre Dateien.


Verifizierbare technische Garantien

GarantieDurchsetzungsmechanismus
Keine riskanten Speicheroperationen im Kern#![forbid(unsafe_code)] vom Compiler durchgesetzt — nicht durch Code-Review
Kein ignorierbarer Fehlerpfad#[must_use] auf allen Ergebnissen — ein ignorierter Pfad ist ein Compilerfehler
Kein unwrap() / panic!() in der ProduktionDurch kontinuierlichen automatisierten Test garantiert
Integrität der Audit-KetteSHA-256 verkettet — jede Änderung ist mathematisch erkennbar
Validierung der Abhängigkeiten zwischen StufenBei der Assembly, vor der Ausführung — Konfigurationsfehler erreichen nicht die Laufzeit
Null Vendor-Abhängigkeiten im zertifizierten KernDurch automatisierten Test bei Kompilierung verifiziert

1.254 automatisierte Tests laufen kontinuierlich. 27 unabhängige Module, jedes mit seinen eigenen Kompilierungsgrenzen. 25 Abstraktionsschnittstellen definieren alle Kontaktpunkte zwischen Kern und Außenwelt.


Was Ihre Teams konkret gewinnen

Für Ihren CISO Jedes verarbeitete Datum wird nachverfolgt. Jede PII-Richtlinie wird mechanisch angewandt, nicht durch Konvention. Der SHA-256-Audit-Trail stellt einen unabhängigen technischen Nachweis Ihrer Verarbeitungsprozesse dar — einsehbar, exportierbar, unverletzlich.

Für Ihren DSB Die DSGVO-Konformität ist kein Kästchen, das nach dem Deployment abgehakt wird. Sie ist in der Architektur verankert: Personenbezogene Daten können Ihren Vector Store oder Ihr LLM nicht erreichen, ohne gemäß Ihren Regeln verarbeitet worden zu sein. Das Verzeichnis der Verarbeitungstätigkeiten ist aus der kryptografischen Kette auditierbar.

Für Ihren CTO Ein einziges Binär, kein Laufzeitmanager, kein Paketmanager, kein Sekundärserver. Die gesamte Pipeline — Parsing, Chunking, PII, Embeddings, Indexierung — wird wie jedes Linux-Binär deployed. Kein 800-MB-Docker-Image. Keine Python-Abhängigkeiten zu pflegen. Eine TOML-Konfiguration. Das ist alles.

Für Ihre Compliance-Teams in regulierten Sektoren Lexiane ist die einzige KI-Dokumentenverarbeitungs-Engine, die für die Zertifizierung konzipiert wurde. IEC 62304 Ed. 2 (Veröffentlichung voraussichtlich August 2026) wird explizite Anforderungen an KI/ML-Systeme in Medizinprodukten einführen. ISO 26262 für die Automobilindustrie. Lexiane ist mit Ferrocene kompilierbar, dem qualifizierten Rust-Compiler ASIL D / SIL 4. Ihr Qualifikationsdossier führt vom deployen Binär bis zum verwendeten Compiler zurück.


Sprechen wir über Ihren Dokumentkorpus.

Jede Datenverarbeitung hat ihre eigenen Einschränkungen: Format, Volumen, Sensitivität, Branchenregulierung, Auditierbarkeitsanforderungen. Wir bieten keine generische Demonstration an.

Wir bieten einen Austausch über Ihren konkreten Fall: Ihre Dokumente, Ihre Einschränkungen, Ihre Compliance-Fragen. Und eine ehrliche Bewertung dessen, was Lexiane leisten kann — einschließlich wenn die Antwort “nicht jetzt” oder “nicht so” lautet.

Zugang zum Auditable Core anfragen

Melden Sie sich an, um benachrichtigt zu werden, wenn unser Core-Auditprogramm öffnet. Gemäß unserer Datenschutzrichtlinie wird Ihre geschäftliche E-Mail-Adresse ausschließlich für diese technische Kommunikation verwendet, ohne nachfolgende Marketingnutzung. Zugang über sicheres privates Register verteilt.

Kontakt aufnehmen