Raspagem de dados: os modelos de idiomas estão ultrapassando o treinamento do conteúdo de todos

6 de julho de 2023 357

Em geral, as fontes de dados podem ser amplamente categorizadas em:
Dados de código aberto: são fontes de dados de alto volume que normalmente estão disponíveis para fins comerciais, incluindo treinamento de LLM.Como os tempos de chegada relacionados à companhia aérea, aeroporto de destino, temperatura, precipitação etc.).Não entraremos em detalhes demais, mas cada um desses modelos, incluindo o LLMS, é uma combinação de “recursos” e “pesos”.Pontuação de confiabilidade da companhia aérea, ocupação de um aeroporto, quantidade de chuva) e “pesos” (por exemplo, a aliança de notícias/mídia (NMA), que representa editores na mídia impressa e digital nos EUA, publicou o que eles estão chamando de IAprincípios.

Fonte: https://thisisunpacked.substack.com/p/data-scraping-in-the-spotlight-language-models

linux-BR.org

Raspagem de dados: os modelos de idiomas estão ultrapassando o treinamento do conteúdo de todos

Trending posts dos últimos 30 dias

Comentários