Skip to main content
All d'Cases

Onstrukturéiert Dokumenter ginn eng duerchsichbar Wëssensschicht

Eng Ingestiounspipeline, déi méisproocheg Dokumenter liest, déi strukturéiert Fakten dobannen extrahéiert, a se duerch Sich a Chat mat iwwerpréifbare Quelle verfügbar mécht.

01

Operationellt Wëssen an etabléierten Organisatiounen sëtzt an Dokumenter, déi keen sichen kann. Kontrakter, Prozeduren, Briefingen an historesch Berichter accumuléieren op gedeelte Lafwierker, dacks a verschidde Sproochen, dacks gescannt. All nei Fro gëtt eng manuell Archäologiesitzung.

D'Team an dësem Engagement huet Zäit verluer mat deene selwechte Forme vu Recherchen: wéi eng Klausel reegelt e spezifesche Fall, wéi eng Versioun vun enger Prozedur gëllt, wat virun dräi Joer entscheet gouf op wéi enger Beweisgrondlag. D'Käschte waren net just d'Recherche selwer. Et war dat roueg Entscheedungstreffen, dat dat relevant Dokument iwwersprongen huet, well d'Fannen ze deier war.

02

Focus AI huet de Dokumentebesëtz als Pipeline behandelt, net als Späicher. Nei Dokumenter ginn OCR-veraarbecht wann gescannt, sproochlech erkannt a segmentéiert. Eng Kombinatioun aus Named-Entity-Extraktioun an LLM-baséierter strukturéierter Extraktioun verwandelt déi relevant Fakten an typéiert Records.

De beräichert Corpus gëtt iwwer en Sichinterface zerwéiert, dat d'Äntwert nieft der genauer Quellplaz an dem Dokument zréckgëtt. Eng Retrieval-Augmented-Chat-Schicht sëtzt uewen drop fir konversationell Ufroen. All Äntwert ass op seng Quell zréckzeféieren, sou datt de Benotzer kann iwwerpréiwen, wat de System behaapt.

D'Pipeline leeft lokal aus Sensitivitéitsgrënn a benotzt selwer gehoste Modeller wou méiglech. Clientsdokumenter verloossen d'Grenz net.

03

Recherchen, déi fréier eng Archäologiesitzung erfuerderten, ginn elo d'Äntwert nieft der Quellsäit a Sekonnen zréck. Déi selwecht Pipeline dreift widderkommend Iwwerpréiwungen un, déi virdrun dediféiert Juniorpersonal erfuerdert hunn fir Dokumenter ze scannen.

Méi subtil ginn Entscheedungen, déi de Dokumentatiounsschratt iwwersprongen hätten, elo mat him geholl, well d'Konsultéieren vum Corpus net méi deier ass. Wëssen, dat technesch vun der Organisatioun besëtzt war, gouf operationell zougänglech.

  • Python
  • FastAPI
  • Tesseract OCR
  • spaCy
  • LLM-Extraktioun
  • Vektorsich

Sot eis wou Dir feststeckt.

All Projet fänkt mat enger fokusséierter Sitzung iwwer Är Engpäss un. Keng Folien, kee Show. Mir lauschteren, verstinn an handelen op de Problem.