linux-BR.org

Notícias de software livre e tecnologias

Seguimos as mesmas etapas de pré -processamento exatamente e os hiperparâmetros de treinamento que o artigo original da llama, incluindo arquitetura de modelo, duração do contexto, etapas de treinamento, cronograma de taxa de aprendizado e otimizador.O modelo de llama original foi treinado para 1 trilhão de fichas e o GPT-J foi treinado para 500 bilhões de tokens, enquanto o Openllama foi treinado em 200 bilhões de tokens.Observamos que nossos resultados para o modelo de llama diferem ligeiramente do artigo de llama original, que acreditamos ser resultado de diferentes protocolos de avaliação.Fornecemos pesos de Pytorch e Jax dos modelos Openllama pré-treinados, bem como resultados de avaliação e comparação com os modelos originais de llama.Esperamos que o desempenho do Openllama, depois de concluir seu treinamento em 1 trilhão de tokens, seja melhorado ainda mais.

Fonte: https://github.com/openlm-research/open_llama