linux-BR.org

Notícias de software livre e tecnologias

Como eu queria raspar os títulos das postagens do blog, seus respectivos autores e as datas da publicação, acabei de adicionar 3 campos chamados “Title”, “Author” e “Pub_Date”.Você deve ser o mais específico possível e sempre descrever o esquema (nomes de atributos, como “Title”, “Author_Name”, “Publication_Date”).Embora existam certamente algumas excelentes ferramentas de raspagem na web para a IA por aí, a maioria das pessoas anunciadas como “raspadores da Web movidas a IA” são … bem, apenas raspadores da web.Portanto, esses são dois produtos prontos para o “AI Web Scraping” que você pode tentar, mas outra possibilidade é usar diretamente a IA (LLMS neste caso).Use rastreador de conteúdo do site para extrair e processar dados da Web para alimentar, ajustar ou treinar modelos de idiomas grandes.

Fonte: https://blog.apify.com/ai-web-scraping-tools/