Raspagem de dados: os modelos de idiomas estão ultrapassando o treinamento do conteúdo de todos

6 de julho de 2023 388

Em geral, as fontes de dados podem ser amplamente categorizadas em:
Dados de código aberto: são fontes de dados de alto volume que normalmente estão disponíveis para fins comerciais, incluindo treinamento de LLM.Como os tempos de chegada relacionados à companhia aérea, aeroporto de destino, temperatura, precipitação etc.).Não entraremos em detalhes demais, mas cada um desses modelos, incluindo o LLMS, é uma combinação de “recursos” e “pesos”.Pontuação de confiabilidade da companhia aérea, ocupação de um aeroporto, quantidade de chuva) e “pesos” (por exemplo, a aliança de notícias/mídia (NMA), que representa editores na mídia impressa e digital nos EUA, publicou o que eles estão chamando de IAprincípios.

Fonte: https://thisisunpacked.substack.com/p/data-scraping-in-the-spotlight-language-models

linux-BR.org

Raspagem de dados: os modelos de idiomas estão ultrapassando o treinamento do conteúdo de todos

Trending posts dos últimos 30 dias

Google traiu a web

STF investe mais de 1 milhão no KDE

GitHub afirma que 3.800 repositórios foram violados

Google lançará primeiros óculos inteligentes desde o fracasso do Google Glass

Funcionários do Google compartilham internamente memes sobre como sua IA é uma droga

Comentários