linux-BR.org

Notícias de software livre e tecnologias

Usaremos a métrica MMLU, que possui exemplos de dados de teste suficientes (acima de 14K) e no qual o modelo mixtral tem um desempenho muito bom (precisão de 70,6%), mas não muito bem.Implantamos o VLLM em muitas configurações: 2, 4 e 8 GPUs (paralelismo do tensor).Multiplicamos os QPs resultantes por 4, 2 e 1, respectivamente.Implantamos o serviço Fireworks LLM usando muitas configurações diferentes e, semelhante ao VLLM, mostramos números apenas da configuração vencedora.Outros métodos como Smoothquant e AWQ tentam melhorar o desempenho de um modelo, mas ainda ficam aquém, especialmente durante a geração.

Fonte: https://blog.fireworks.ai/fireattention-serving-open-source-models-4x-faster-than-vllm-by-quantizing-with-no-tradeoffs-a29a85ad28d0