Servindo modelos de código aberto 4x mais rápido que o VLLM quantizando com ~ sem trocas

21 de março de 2024 308

Usaremos a métrica MMLU, que possui exemplos de dados de teste suficientes (acima de 14K) e no qual o modelo mixtral tem um desempenho muito bom (precisão de 70,6%), mas não muito bem.Implantamos o VLLM em muitas configurações: 2, 4 e 8 GPUs (paralelismo do tensor).Multiplicamos os QPs resultantes por 4, 2 e 1, respectivamente.Implantamos o serviço Fireworks LLM usando muitas configurações diferentes e, semelhante ao VLLM, mostramos números apenas da configuração vencedora.Outros métodos como Smoothquant e AWQ tentam melhorar o desempenho de um modelo, mas ainda ficam aquém, especialmente durante a geração.

Fonte: https://blog.fireworks.ai/fireattention-serving-open-source-models-4x-faster-than-vllm-by-quantizing-with-no-tradeoffs-a29a85ad28d0

linux-BR.org

Servindo modelos de código aberto 4x mais rápido que o VLLM quantizando com ~ sem trocas

Trending posts dos últimos 30 dias

Pelias: um geocoder de código aberto modular usando o elasticsearch

Mostrar HN: SafeContract – Ferramenta CLI para baixar o código fonte verificado de contrato inteligente

Os maníacos criptográficos e a casa de tortura

Histórias de prêmios Turing

O Google perde o apelo na batalha antitruste com o Fortnite Maker

Comentários