Inferência do modelo llama2 em Fortran

11 de setembro de 2023 423

Para implementações fortran de inferência para vários modelos GPT, consulte https://github.com/certik/fastgpt
O futuro da inferência do modelo LLM (e a inferência do modelo de fundação em geral) está em programas leves e dedicados, não mais abstração.Se você tiver problemas para executar alguma coisa ou ter comentários, sugestões, solicitações de recursos, etc., entre em contato ou abra um problema.Na máquina que usei (um Amazon EC2 com 8 núcleos e 32 GB de RAM, não pergunte), ela funciona muito lentamente (0,25 tok/s).Modelo de código aberto
Se você não quiser lidar com os jogos de licença da Meta, existem modelos de lhama de código aberto.Em seguida, execute manualmente especificando o tokenizer:
Llama2 de Meta
O extrato atual.py usa muita memória e não conseguiu encobrir o modelo LLAMA 7B em 32 GB de RAM.

Fonte: https://github.com/rbitr/llama2.f90

linux-BR.org

Inferência do modelo llama2 em Fortran

Trending posts dos últimos 30 dias

Comentários