Skip to main content
Todos os cases

Documentos não estruturados viram uma camada de conhecimento pesquisável

Um pipeline de ingestão que lê documentos multilíngues, extrai os fatos estruturados dentro deles e os expõe via busca e chat amarrados a fontes verificáveis.

01

O conhecimento operacional em organizações estabelecidas mora em documentos que ninguém consegue buscar. Contratos, procedimentos, briefings e relatórios históricos se acumulam em drives compartilhados, frequentemente em vários idiomas, frequentemente escaneados. Toda nova pergunta vira uma sessão manual de arqueologia.

A equipe neste engajamento perdia tempo nos mesmos tipos de busca: qual cláusula governa um caso específico, qual versão do procedimento se aplica, o que foi decidido três anos atrás e com base em quais evidências. O custo não era apenas a busca em si. Era a tomada de decisão silenciosa que pulava o documento relevante porque encontrá-lo era caro demais.

02

A Focus AI tratou o acervo documental como um pipeline, não como repositório. Novos documentos passam por OCR quando escaneados, têm idioma detectado e são segmentados. Uma combinação de extração de entidades nomeadas e extração estruturada por LLM transforma os fatos relevantes em registros tipados.

O corpus enriquecido é servido através de uma interface de busca que retorna a resposta junto com o trecho-fonte exato e o documento. Uma camada de chat com retrieval-augmented fica em cima para queries conversacionais. Cada resposta é rastreável até sua fonte, então o usuário pode verificar o que o sistema afirma.

O pipeline roda localmente por sensibilidade e usa modelos self-hosted quando possível. Documentos do cliente não saem do perímetro.

03

Buscas que costumavam exigir uma sessão de arqueologia agora retornam a resposta junto com a página-fonte, em segundos. O mesmo pipeline alimenta revisões recorrentes que antes exigiam pessoal júnior dedicado para varrer documentos.

Mais sutilmente, decisões que pulariam a etapa de documentação agora são tomadas com ela, porque consultar o corpus deixou de ser caro. O conhecimento que era tecnicamente da organização tornou-se operacionalmente acessível.

  • Python
  • FastAPI
  • Tesseract OCR
  • spaCy
  • Extração com LLM
  • Busca vetorial

Conte onde você está travado.

Todo projeto começa com uma sessão focada discutindo seus gargalos. Sem slides, sem enrolação. Ouvimos, entendemos e executamos no problema.