Notavelmente, mesmo o modelo de 410m não satina com tokens de 300B, pois continua mostrando uma tendência crescente, semelhante à tendência de modelos maiores.Aqui eu cito esse artigo: “Observamos que, após pré -falhar em tokens 2T, os modelos ainda não mostraram nenhum sinal de saturação”.Essas otimizações também reduzem bastante a pegada da memória, permitindo que enchemos nosso modelo de 1,1b em RAM GPU de 40 GB e treine com um tamanho de lote por GPU de tokens de 16k.Isso significa que você pode treinar um Tinyllama ideal de chinchila (1,1b param, 22b tokens) em 32 horas com 8 A100.Se você achar nosso trabalho valioso, cite:
Acima está a curva de perda de treinamento retirada do papel Llama 2.