linux-BR.org

Notícias de software livre e tecnologias

Os pesquisadores há muito utilizam coleções de dados raspados da Internet para estudos de censura, malware, sociologia, idioma e outros aplicativos, incluindo IA generativa.Isso aliviaria muitas mentes para outras empresas com produtos de IA semelhantes, como antropia, Amazon e inúmeros outros, anunciarem que respeitariam solicitações semelhantes.Obviamente, os proprietários individuais de sites têm visualizações diferentes para seus blogs, portfólios ou qualquer outra coisa para você usar seu site.Tudo isso pode parecer bastante técnico, mas realmente é nada mais que um pequeno arquivo de texto localizado na pasta raiz do seu site, como “https://www.example.com/robots.txt”.Se você executar seu próprio site, terá alguma maneira de acessar a estrutura de arquivos desse site, seja através do portal da Web ou FTP do seu provedor de hospedagem.

Fonte: https://www.eff.org/deeplinks/2023/12/no-robotstxt-how-ask-chatgpt-and-google-bard-not-use-your-website-training