Em geral, as fontes de dados podem ser amplamente categorizadas em:
Dados de código aberto: são fontes de dados de alto volume que normalmente estão disponíveis para fins comerciais, incluindo treinamento de LLM.Como os tempos de chegada relacionados à companhia aérea, aeroporto de destino, temperatura, precipitação etc.).Não entraremos em detalhes demais, mas cada um desses modelos, incluindo o LLMS, é uma combinação de “recursos” e “pesos”.Pontuação de confiabilidade da companhia aérea, ocupação de um aeroporto, quantidade de chuva) e “pesos” (por exemplo, a aliança de notícias/mídia (NMA), que representa editores na mídia impressa e digital nos EUA, publicou o que eles estão chamando de IAprincípios.
Fonte: https://thisisunpacked.substack.com/p/data-scraping-in-the-spotlight-language-models