Com uma pontuação média mais alta e mínima de similaridade da resposta, o sistema de pano da Haystack forneceu uma resposta correta (ou próxima da correta) com mais frequência do que o sistema de Langchain.No entanto, se você estiver usando RAG para construir ou melhorar um chatbot simples, ficará perfeitamente bem usando o Haystack.No nosso caso, usaremos a pontuação de similaridade da resposta, que obtém o quão semelhante a resposta do LLM é para a resposta correta para uma determinada pergunta.Em particular, inclui recursos para ajuste fino, busca semântica e tomada de decisão ao lado dos recursos normais do RAG.Usando esses dados, o TvalMetrics pontuará automaticamente as respostas do LLM, dando -me uma idéia quantiativa de como cada sistema de pano está executando.
Fonte: https://tonicai.substack.com/p/rag-evaluation-series-validating-961