O Projeto Tinyllama pretende pré -extrair um modelo de 1,1b llama em tokens 3T

4 de setembro de 2023 307

Notavelmente, mesmo o modelo de 410m não satina com tokens de 300B, pois continua mostrando uma tendência crescente, semelhante à tendência de modelos maiores.Aqui eu cito esse artigo: “Observamos que, após pré -falhar em tokens 2T, os modelos ainda não mostraram nenhum sinal de saturação”.Essas otimizações também reduzem bastante a pegada da memória, permitindo que enchemos nosso modelo de 1,1b em RAM GPU de 40 GB e treine com um tamanho de lote por GPU de tokens de 16k.Isso significa que você pode treinar um Tinyllama ideal de chinchila (1,1b param, 22b tokens) em 32 horas com 8 A100.Se você achar nosso trabalho valioso, cite:

Acima está a curva de perda de treinamento retirada do papel Llama 2.

Fonte: https://github.com/jzhang38/TinyLlama

linux-BR.org

O Projeto Tinyllama pretende pré -extrair um modelo de 1,1b llama em tokens 3T

Trending posts dos últimos 30 dias

Fazendo meu trabalho diário no Chimera Linux

Gerando uma categoria específica de invólucros de retorno de chamada C em torno dos métodos C ++

Novo Profiler de CPU-Time de Java 25

Olhe certa: campanha de ameaças que enganam os desenvolvedores em repositórios do GitHub – Zona do Programador

Munique Open Source

Comentários