Skip to main content
Alle Cases

Unstrukturierte Dokumente werden zu einer durchsuchbaren Wissensschicht

Eine Ingestion-Pipeline, die mehrsprachige Dokumente liest, die darin enthaltenen strukturierten Fakten extrahiert und sie über Suche und Chat mit überprüfbaren Quellen verfügbar macht.

01

Operatives Wissen in etablierten Organisationen liegt in Dokumenten, die niemand durchsuchen kann. Verträge, Verfahren, Briefings und historische Berichte sammeln sich auf gemeinsamen Laufwerken, oft in mehreren Sprachen, oft gescannt. Jede neue Frage wird zu einer manuellen Archäologie-Sitzung.

Das Team in diesem Auftrag verlor Zeit mit den gleichen Arten von Recherchen: Welche Klausel regelt einen bestimmten Fall, welche Version eines Verfahrens gilt, was wurde vor drei Jahren auf welcher Grundlage entschieden. Die Kosten waren nicht nur die Recherche selbst. Es war die stille Entscheidungsfindung, die das relevante Dokument übersprang, weil das Auffinden zu teuer war.

02

Focus AI behandelte den Dokumentenbestand als Pipeline statt als Ablage. Neue Dokumente werden bei Scans OCR-verarbeitet, sprachlich erkannt und segmentiert. Eine Kombination aus Named-Entity-Extraction und LLM-basierter strukturierter Extraktion verwandelt die relevanten Fakten in typisierte Datensätze.

Der angereicherte Korpus wird über eine Suchoberfläche serviert, die die Antwort zusammen mit der genauen Quellstelle und dem Dokument zurückgibt. Eine Retrieval-Augmented-Chat-Schicht sitzt darüber für konversationelle Anfragen. Jede Antwort ist auf ihre Quelle rückverfolgbar, sodass der Nutzer überprüfen kann, was das System behauptet.

Die Pipeline läuft aus Sensitivitätsgründen lokal und verwendet wo möglich selbst gehostete Modelle. Klientendokumente verlassen die Grenze nicht.

03

Recherchen, die früher eine Archäologie-Sitzung erforderten, geben nun die Antwort zusammen mit der Quellseite in Sekunden zurück. Dieselbe Pipeline treibt wiederkehrende Überprüfungen an, die zuvor dediziertes Juniorpersonal zum Scannen von Dokumenten erforderten.

Subtiler werden Entscheidungen, die den Dokumentationsschritt übersprungen hätten, nun mit ihm getroffen, weil die Konsultation des Korpus nicht mehr teuer ist. Wissen, das technisch der Organisation gehörte, wurde operativ zugänglich.

  • Python
  • FastAPI
  • Tesseract OCR
  • spaCy
  • LLM-Extraktion
  • Vektorsuche

Sagen Sie uns, wo Sie feststecken.

Jedes Projekt startet mit einer fokussierten Sitzung zu Ihren Engpässen. Keine Folien, keine Show. Wir hören zu, verstehen und führen am Problem aus.