linux-BR.org

Notícias de software livre e tecnologias

Grandes modelos de idiomas (LLMs) como Bert, GPT-3, GPT-4, Llama e outros são treinados em um grande corpus de dados e têm conhecimento geral.No entanto, enquanto o ajuste do prefixo antecende os tensores ajustáveis às incorporações, o método adaptador adiciona camadas adaptadoras em dois lugares, conforme ilustrado na figura abaixo.No entanto, como os LLMs são “grandes”, a atualização de várias camadas em um modelo de transformador pode ser muito caro, então os pesquisadores começaram a desenvolver alternativas eficientes em parâmetro.Por exemplo, suponha que a primeira camada totalmente conectada projete uma entrada 1024-dimensional até 24 dimensões, e a segunda camada totalmente conectada o projeta novamente em 1024 dimensões.(Os leitores interessados podem encontrar uma visão geral dos diferentes métodos de Finetuning LLM em meu artigo anterior, Finetuning Language Models: uma introdução às idéias e abordagens principais.)

Fonte: https://magazine.sebastianraschka.com/p/finetuning-llms-with-adapters