linux-BR.org

Notícias de software livre e tecnologias

Chatllama, Alpaca, Vicuna, Databricks-Dolly, etc.).Geração RLHF, treinamento e rendimento eficaz com a velocidade DeepSpeed-para diferentes tamanhos de modelo, na contagem de GPU que maximiza a eficiência.Além disso, as duas características importantes que adicionamos no estágio 3, incluindo a coleta exponencial da Média Móvel (EMA) e o treinamento de mistura, incorrerão em custos adicionais de memória e treinamento.E, finalmente, as soluções existentes simplesmente não podem suportar modelos de chatGPT fáceis, rápidos e acessíveis, com centenas de bilhões de parâmetros, mesmo com acesso a clusters multi-GPU.No entanto, se olharmos mais de perto, isso mostra que o treinamento do DeepSpeed-RLHF alcança a escala super linear em pequena escala, seguida de escala próxima ou sub-linear em escalas maiores.

Fonte: https://github.com/microsoft/DeepSpeed/tree/master/blogs/deepspeed-chat