linux-BR.org

Notícias de software livre e tecnologias

Doutran usa LLMs e bibliotecas de NLP de código aberto para transformar o texto bruto em documentos limpos, estruturados e densos de informação que são otimizados para a recuperação do espaço vetorial.Usa um modelo Spacy para remover nomes, e -mails, números de telefone e outras informações confidenciais de um documento.Por exemplo, você pode primeiro redigir todo o PII de um documento antes de enviá -lo para o OpenAI para ser resumido.Dado qualquer esquema JSON válido, o YSES Open Function chama para extrair dados estruturados de um documento.A ordem é importante ao encadear transformações – as transformações invocadas primeiro serão executadas primeiro e seu resultado será passado para a próxima transformação.

Fonte: https://github.com/psychic-api/doctran