bolha.us is one of the many independent Mastodon servers you can use to participate in the fediverse.
We're a Brazilian IT Community. We love IT/DevOps/Cloud, but we also love to talk about life, the universe, and more. | Nós somos uma comunidade de TI Brasileira, gostamos de Dev/DevOps/Cloud e mais!

Server stats:

250
active users

@rennerocha tendo mais de 10 sites, de mesma temática, mas que são, em si diferentes (falo do código, layout etc) quão complicado é conseguir escrever uma spider para ele usando Scrapy?

Riverfount :python_logo:

@rennerocha Ou a melhor estratégia é partir para escrever 10 spiders, em vez de um que raspe os dados dos 10 de uma vez?

@riverfount se a temática é a mesma, vc pode compartilhar o schema do item retornado (e talvez pipelines de validação). Porém como cada site é diferente, um spider por site é melhor para deixar isolado cada um deles. Assim vc consegue monitorar mais facilmente e o código não fica mais complicado do que necessário.
Dá uma olhada em como os spiders do Querido Diário são organizados
github.com/okfn-brasil/querido

GitHubGitHub - okfn-brasil/querido-diario: 📰 Diários oficiais brasileiros acessíveis a todos | 📰 Brazilian government gazettes, accessible to everyone.📰 Diários oficiais brasileiros acessíveis a todos | 📰 Brazilian government gazettes, accessible to everyone. - okfn-brasil/querido-diario

@rennerocha Obrigado Renne, vou analisar esse repo que vc me indicou. Acredito tb que manter um scrap por site é mais simples e eficaz do que complicar criando um monstrinho para raspar vários sites de uma vez!