70B llama 2 em 35Tokens/segundo em 4090

13 de setembro de 2023 293

EXL2 é baseado no mesmo
Método de otimização como GPTQ e suporta 2, 3, 4, 5, 6 e 8 bits quantização.Além disso, é possível aplicar vários níveis de quantização a cada camada linear, produzindo algo semelhante ao esparso
quantização em que pesos mais importantes (colunas) são quantizados com mais bits.Aproximadamente falando, você precisará de cerca de 24 GB de VRAM para converter um modelo 70B, enquanto o 7B parece exigir cerca de 8 GB.Uma vez concluído, os tensores quantizados serão compilados em saída.
e esse arquivo pode substituir o arquivo SafeTetens no modelo HF original.Isso significa o primeiro
Tempo em que a biblioteca é usada, levará 10 a 20 segundos (dependendo do seu hardware) para começar, mas a extensão é armazenada em cache
para uso subsequente.

Fonte: https://github.com/turboderp/exllamav2

linux-BR.org

70B llama 2 em 35Tokens/segundo em 4090

Trending posts dos últimos 30 dias

Gerando uma categoria específica de invólucros de retorno de chamada C em torno dos métodos C ++

Fazendo meu trabalho diário no Chimera Linux

Novo Profiler de CPU-Time de Java 25

Nenhum chatgpt não causou psicose e futurismo deve ter vergonha de sugerir

Quão sério é o problema do chatgpt do Google?

Comentários