
Usaremos a métrica MMLU, que possui exemplos de dados de teste suficientes (acima de 14K) e no qual o modelo mixtral tem um desempenho muito bom (precisão de 70,6%), mas não muito bem.Implantamos o VLLM em muitas configurações: 2, 4 e 8 GPUs (paralelismo do tensor).Multiplicamos os QPs resultantes por 4, 2 e 1, respectivamente.Implantamos o serviço Fireworks LLM usando muitas configurações diferentes e, semelhante ao VLLM, mostramos números apenas da configuração vencedora.Outros métodos como Smoothquant e AWQ tentam melhorar o desempenho de um modelo, mas ainda ficam aquém, especialmente durante a geração.