linux-BR.org

Notícias de software livre e tecnologias

Existem algumas configurações que você pode mudar aqui, como comprimento de sequência, tamanho do lote, taxa de aprendizado, taxa de abandono, número de iterações.Por outro lado, se tudo se encaixar na memória, não há necessidade de fazer o todo ‘avaliar duas vezes’, poderá usar apenas o FairScale e mover apenas os tensores entre a GPU/CPU.Se, por exemplo, assumimos que 1pb de gravações antes do SSD começar a ter problemas, mesmo 100 iterações da Finetuning incorrerão em custo/risco significativo.A maneira como é implementada atualmente é:
Os pesos originais do LLAMA2 estão no BFLOAT16, mas o back -end do MPS não suporta esse tipo de nativamente, por isso fazemos computação no Float32.Para ainda poder finalizar esse modelo, eu armazenei pesos originais em cartão SD externo muito mais lento, pois precisamos lê -los apenas uma vez.

Fonte: https://github.com/okuvshynov/slowllama