linux-BR.org

Notícias de software livre e tecnologias

Além disso, avaliar esses agentes generativos, o que geralmente é feito manualmente em cenários diferentes, é uma tarefa muito manual, repetitiva e cara.No entanto, a maioria dos agentes generativos requer personalização pesada para fins específicos e
Suportar diferentes casos de uso às vezes pode ser esmagador usando ferramentas existentes
e estruturas.Os usuários de teste incorporam vários contextos de usuário e resultados de conversas desejados, o que permite uma adição fácil de casos de teste para novos cenários de usuário e avaliação rápida.Dessa forma, poderíamos adicionar teste
Casos para diferentes cenários de usuário e usam LLMs para avaliar se as conversas com várias turnos alcançadas
o resultado desejado.Para facilitar a avaliação do agente, o Autochain apresenta a estrutura de avaliação do fluxo de trabalho.

Fonte: https://github.com/Forethought-Technologies/AutoChain