linux-BR.org

Notícias de software livre e tecnologias

EXL2 é baseado no mesmo
Método de otimização como GPTQ e suporta 2, 3, 4, 5, 6 e 8 bits quantização.Além disso, é possível aplicar vários níveis de quantização a cada camada linear, produzindo algo semelhante ao esparso
quantização em que pesos mais importantes (colunas) são quantizados com mais bits.Aproximadamente falando, você precisará de cerca de 24 GB de VRAM para converter um modelo 70B, enquanto o 7B parece exigir cerca de 8 GB.Uma vez concluído, os tensores quantizados serão compilados em saída.
e esse arquivo pode substituir o arquivo SafeTetens no modelo HF original.Isso significa o primeiro
Tempo em que a biblioteca é usada, levará 10 a 20 segundos (dependendo do seu hardware) para começar, mas a extensão é armazenada em cache
para uso subsequente.

Fonte: https://github.com/turboderp/exllamav2