linux-BR.org

Notícias de software livre e tecnologias

Para implementações fortran de inferência para vários modelos GPT, consulte https://github.com/certik/fastgpt
O futuro da inferência do modelo LLM (e a inferência do modelo de fundação em geral) está em programas leves e dedicados, não mais abstração.Se você tiver problemas para executar alguma coisa ou ter comentários, sugestões, solicitações de recursos, etc., entre em contato ou abra um problema.Na máquina que usei (um Amazon EC2 com 8 núcleos e 32 GB de RAM, não pergunte), ela funciona muito lentamente (0,25 tok/s).Modelo de código aberto
Se você não quiser lidar com os jogos de licença da Meta, existem modelos de lhama de código aberto.Em seguida, execute manualmente especificando o tokenizer:
Llama2 de Meta
O extrato atual.py usa muita memória e não conseguiu encobrir o modelo LLAMA 7B em 32 GB de RAM.

Fonte: https://github.com/rbitr/llama2.f90