linux-BR.org

Notícias de software livre e tecnologias

Além disso, o projeto tem uma função de filtrar potenciais alucinações do texto corrigido por LLM usando incorporações de sentença e similaridade de cosseno para comparar com o texto original do OCR.Finalmente, a função retorna o filtrado_correctect_text, o original_embeddings e corrigido_embeddings.Em seguida, a função cria um objeto LlamacppEmbeddings, que é usado para calcular incorporações para as frases.Depois de incorporar, a função os salva no banco de dados usando o hash do arquivo PDF como chave.O texto OCR’Ed é posteriormente passado pelo modelo de bate -papo LLAMA2 13B, que ajuda a corrigir erros de OCR e melhorar a formatação do texto.

Fonte: https://github.com/Dicklesworthstone/llama2_aided_tesseract