linux-BR.org

Notícias de software livre e tecnologias

Para o Openllama de ajuste fino, escolhi as matrizes de peso Q, K, V para ajustar o tune (consulte a postagem ilustrada do blog Transformer para obter mais detalhes sobre Q, K, V).De Llama/Openllama, as matrizes Q, K, V são 4096×4096, então 16m parâmetros cada.Muito amplamente, a Lora (adaptação de baixo rank) é um algoritmo que nos permite ajustar um modelo usando muito pouca sobrecarga computacional, em comparação com o ajuste fino supervisionado padrão de todo o modelo.Antes de carregarmos o modelo básico, precisamos configurar as configurações de quantização da QLORA, para ser aplicado ao modelo básico posteriormente.E os conjuntos de dados de ajuste de instrução, juntamente com o desenvolvimento de Lora e Qlora, a instrução ajustando um modelo básico é cada vez mais acessível a mais pessoas/organizações.

Fonte: https://georgesung.github.io/ai/qlora-ift/