linux-BR.org

Notícias de software livre e tecnologias

Por exemplo, se considerarmos as várias configurações (Lora_Query, Lora_Key, Lora_Value, Lora_Projection, Lora_mlp e Lora_head), são 2^6 = 64 combinações para explorar.Além das configurações de precisão e quantização, o tamanho do modelo, o tamanho do lote e o número de parâmetros treináveis da LORA, o conjunto de dados também pode influenciar o uso da memória.Usando a melhor configuração (r = 256, alfa = 512) no LIMA, fiquei semelhante, se não melhor, desempenho do que o conjunto de dados Alpaca maior 50x.Além disso, também podemos ativar o LORA para as matrizes de peso da consulta, as camadas de projeção, as outras camadas lineares entre os blocos de atenção múltipla e a camada de saída linear.Por exemplo, em junho, discuti o conjunto de dados LIMA (à frente do AI #9: LLM Tuning & DataSet Perspectives), um conjunto de dados com curadoria que consiste em apenas 1K exemplos.

Fonte: https://magazine.sebastianraschka.com/p/practical-tips-for-finetuning-llms