linux-BR.org

Notícias de software livre e tecnologias

Eu invadi o suporte llama.cpp em uma hora sem saber muito sobre como o GPT automático realmente funciona (Yay for AI Safety ;-)).Executar o modelo com GPTQ na GPU pode tornar a latência um pouco mais suportável.Em caso de dúvida, como fazer algo parece no repositório automático.
Este é um garfo de 11 de abril do Auto-GPT.Eu tentei com o modelo Vicuna-13b-4bit.

Fonte: https://github.com/rhohndorf/Auto-Llama-cpp