Skip to main content
Tous les cas

Les documents non structurés deviennent une couche de connaissance recherchable

Un pipeline d'ingestion qui lit des documents multilingues, extrait les faits structurés à l'intérieur, et les expose via recherche et chat liés à des sources vérifiables.

01

Le savoir opérationnel dans les organisations établies vit dans des documents que personne ne peut chercher. Contrats, procédures, briefings et rapports historiques s'accumulent sur des drives partagés, souvent en plusieurs langues, souvent scannés. Chaque nouvelle question devient une session manuelle d'archéologie.

L'équipe de cette mission perdait du temps sur les mêmes types de recherches : quelle clause régit un cas spécifique, quelle version de la procédure s'applique, ce qui a été décidé il y a trois ans et sur quelle base. Le coût n'était pas seulement la recherche elle-même. C'était la prise de décision silencieuse qui sautait le document pertinent parce que le trouver coûtait trop cher.

02

Focus AI a traité le parc documentaire comme un pipeline plutôt qu'un référentiel. Les nouveaux documents sont passés par OCR quand scannés, leur langue est détectée, et ils sont segmentés. Une combinaison d'extraction d'entités nommées et d'extraction structurée par LLM transforme les faits pertinents en enregistrements typés.

Le corpus enrichi est servi via une interface de recherche qui retourne la réponse à côté du fragment-source exact et du document. Une couche chat avec retrieval-augmented est posée par-dessus pour les requêtes conversationnelles. Chaque réponse est traçable jusqu'à sa source, donc l'utilisateur peut vérifier ce que le système affirme.

Le pipeline tourne en local pour la sensibilité et utilise des modèles self-hosted quand possible. Les documents client ne quittent pas le périmètre.

03

Les recherches qui demandaient une session d'archéologie retournent maintenant la réponse à côté de la page-source, en secondes. Le même pipeline alimente des revues récurrentes qui demandaient auparavant du personnel junior dédié pour parcourir les documents.

Plus subtilement, les décisions qui auraient sauté l'étape de documentation se prennent maintenant avec elle, parce que consulter le corpus a cessé d'être coûteux. Le savoir qui appartenait techniquement à l'organisation est devenu opérationnellement accessible.

  • Python
  • FastAPI
  • Tesseract OCR
  • spaCy
  • Extraction par LLM
  • Recherche vectorielle

Dites-nous où vous êtes bloqué.

Chaque projet commence par une session ciblée sur vos goulets d'étranglement. Pas de slides, pas de baratin. Nous écoutons, nous comprenons, nous exécutons sur le problème.