linux-BR.org

Notícias de software livre e tecnologias

Por exemplo, se o modelo for dado a frase
“A [máscara] estava sentada no”
Como entrada, pode prever a próxima palavra como “gato”, “cachorro” ou “coelho”.Os criadores usam uma técnica específica chamada de aprendizado de reforço com o feedback humano (RLHF), que usa feedback humano no loop de treinamento para minimizar saídas prejudiciais, mentiras e/ou tendenciosas.Como o modelo é treinado sobre a entrada dos etiquetadores humanos, a parte central da avaliação também é baseada na entrada humana, ou seja, questões do tipo Wireheading: nas abordagens de RL, o modelo às vezes pode aprender a manipular seu próprio sistema de recompensa para alcançar um resultado desejado,levando a uma “política otimizada”.Na primeira abordagem, o modelo recebe uma sequência de palavras (ou “tokens”, ou seja,

Fonte: https://www.assemblyai.com/blog/how-chatgpt-actually-works/