linux-BR.org

Notícias de software livre e tecnologias

Treinamos esse modelo usando o aprendizado de reforço com o feedback humano (RLHF), usando os mesmos métodos que o InstructGPT, mas com pequenas diferenças na configuração da coleta de dados.Temos muito pouco tráfego HTTPS, sem a necessidade de testes A/B, azul/verde ou canários.Para informar a recompensa,
Precisávamos coletar dados de comparação, que consistiam em duas ou mais respostas de modelo classificadas pela qualidade.Sabemos que o ChatGPT é um modelo de conjunto e multi-estágio: o modelo básico disso é um modelo de linguagem grande não supervisionado, GPT-3.Tivemos um processo de integração para treinar gravadores no projeto, escrevemos instruções detalhadas para cada tarefa e respondemos às perguntas dos gravadores em uma sala de bate -papo compartilhada.

Fonte: https://gist.github.com/veekaybee/6f8885e9906aa9c5408ebe5c7e870698