Documentos não estruturados viram uma camada de conhecimento pesquisável

Um pipeline de ingestão que lê documentos multilíngues, extrai os fatos estruturados dentro deles e os expõe via busca e chat amarrados a fontes verificáveis.

01Desafio

O conhecimento operacional em organizações estabelecidas mora em documentos que ninguém consegue buscar. Contratos, procedimentos, briefings e relatórios históricos se acumulam em drives compartilhados, frequentemente em vários idiomas, frequentemente escaneados. Toda nova pergunta vira uma sessão manual de arqueologia.

A equipe neste engajamento perdia tempo nos mesmos tipos de busca: qual cláusula governa um caso específico, qual versão do procedimento se aplica, o que foi decidido três anos atrás e com base em quais evidências. O custo não era apenas a busca em si. Era a tomada de decisão silenciosa que pulava o documento relevante porque encontrá-lo era caro demais.

02Abordagem

A Focus AI tratou o acervo documental como um pipeline, não como repositório. Novos documentos passam por OCR quando escaneados, têm idioma detectado e são segmentados. Uma combinação de extração de entidades nomeadas e extração estruturada por LLM transforma os fatos relevantes em registros tipados.

O corpus enriquecido é servido através de uma interface de busca que retorna a resposta junto com o trecho-fonte exato e o documento. Uma camada de chat com retrieval-augmented fica em cima para queries conversacionais. Cada resposta é rastreável até sua fonte, então o usuário pode verificar o que o sistema afirma.

O pipeline roda localmente por sensibilidade e usa modelos self-hosted quando possível. Documentos do cliente não saem do perímetro.

03Resultado

Buscas que costumavam exigir uma sessão de arqueologia agora retornam a resposta junto com a página-fonte, em segundos. O mesmo pipeline alimenta revisões recorrentes que antes exigiam pessoal júnior dedicado para varrer documentos.

Mais sutilmente, decisões que pulariam a etapa de documentação agora são tomadas com ela, porque consultar o corpus deixou de ser caro. O conhecimento que era tecnicamente da organização tornou-se operacionalmente acessível.

Stack

Python
FastAPI
Tesseract OCR
spaCy
Extração com LLM
Busca vetorial

Mais cases

Trabalhos relacionados.

Software sob medida

Data Centralisation

Unifique todas as ferramentas operacionais em uma única fonte de verdade consultável.

Ler case

Software sob medida

Auto Reconciliation

Combine faturas, livros-razão e movimentos bancários automaticamente. Revise apenas as exceções.

Ler case

Qual o próximo passo?

Conte onde você está travado.

Todo projeto começa com uma sessão focada discutindo seus gargalos. Sem slides, sem enrolação. Ouvimos, entendemos e executamos no problema.

Entre em contato