linux-BR.org

Notícias de software livre e tecnologias

Esses primeiros modelos de idiomas baseados em transformadores tiveram um bom desempenho, mas não vimos desempenho verdadeiramente impressionante até que modelos de linguagem muito maiores (ou seja, True LLMS), como o GPT-3 [5], foram explorados.Antes do advento da arquitetura do transformador, os modelos de idiomas ainda estavam por aí, mas eram baseados em arquiteturas mais simples (por exemplo, redes neurais recorrentes).Se você gosta do boletim, inscreva -se, compartilhe -o ou siga -me no Medium, X e LinkedIn!Junte -se aos assinantes da Microsoft, Tesla, Google, Meta e mais que usam foco profundo (aprendizado) para entender melhor a pesquisa da IA!Para produzir uma sequência de saída, o modelo segue um processo autorregressivo4 (mostrado acima) composto pelas seguintes etapas:
Pegue uma sequência textual inicial (ou seja, um prompt) como entrada.

Fonte: https://cameronrwolfe.substack.com/p/explaining-chatgpt-to-anyone-in-20