Les documents non structurés deviennent une couche de connaissance recherchable

Un pipeline d'ingestion qui lit des documents multilingues, extrait les faits structurés à l'intérieur, et les expose via recherche et chat liés à des sources vérifiables.

01Défi

Le savoir opérationnel dans les organisations établies vit dans des documents que personne ne peut chercher. Contrats, procédures, briefings et rapports historiques s'accumulent sur des drives partagés, souvent en plusieurs langues, souvent scannés. Chaque nouvelle question devient une session manuelle d'archéologie.

L'équipe de cette mission perdait du temps sur les mêmes types de recherches : quelle clause régit un cas spécifique, quelle version de la procédure s'applique, ce qui a été décidé il y a trois ans et sur quelle base. Le coût n'était pas seulement la recherche elle-même. C'était la prise de décision silencieuse qui sautait le document pertinent parce que le trouver coûtait trop cher.

02Approche

Focus AI a traité le parc documentaire comme un pipeline plutôt qu'un référentiel. Les nouveaux documents sont passés par OCR quand scannés, leur langue est détectée, et ils sont segmentés. Une combinaison d'extraction d'entités nommées et d'extraction structurée par LLM transforme les faits pertinents en enregistrements typés.

Le corpus enrichi est servi via une interface de recherche qui retourne la réponse à côté du fragment-source exact et du document. Une couche chat avec retrieval-augmented est posée par-dessus pour les requêtes conversationnelles. Chaque réponse est traçable jusqu'à sa source, donc l'utilisateur peut vérifier ce que le système affirme.

Le pipeline tourne en local pour la sensibilité et utilise des modèles self-hosted quand possible. Les documents client ne quittent pas le périmètre.

03Résultat

Les recherches qui demandaient une session d'archéologie retournent maintenant la réponse à côté de la page-source, en secondes. Le même pipeline alimente des revues récurrentes qui demandaient auparavant du personnel junior dédié pour parcourir les documents.

Plus subtilement, les décisions qui auraient sauté l'étape de documentation se prennent maintenant avec elle, parce que consulter le corpus a cessé d'être coûteux. Le savoir qui appartenait techniquement à l'organisation est devenu opérationnellement accessible.

Stack

Python
FastAPI
Tesseract OCR
spaCy
Extraction par LLM
Recherche vectorielle

Plus de cas

Travaux associés.

Logiciel sur mesure

Data Centralisation

Unifiez chaque outil opérationnel en une source de vérité unique et interrogeable.

Lire le cas

Logiciel sur mesure

Auto Reconciliation

Rapprochez factures, grand livre et mouvements bancaires automatiquement. Revoyez seulement les exceptions.

Lire le cas

Quelle est la suite ?

Dites-nous où vous êtes bloqué.

Chaque projet commence par une session ciblée sur vos goulets d'étranglement. Pas de slides, pas de baratin. Nous écoutons, nous comprenons, nous exécutons sur le problème.

Contactez-nous