Scrapling – Le scraper Python qui se répare tout seul
Le scraping web, c’est un combat permanent contre les sites qui changent leur HTML toutes les deux semaines. Vous vous emmerdez à coder vos sélecteurs CSS, ça marche pendant un mois, puis le site refait son design et hop, votre script s’eteint en silence. C’est pourquoi Karim Shoair (alias D4Vinci sur GitHub) a sorti Scrapling, un framework Python qui s’adapte tout seul quand le DOM bouge.
La clé c’est adaptive=True sur n’importe quel sélecteur. Vous lui dites “je cherchais .product“, Scrapling sauvegarde alors la signature de l’élément (texte, attributs, position dans l’arbre), et la prochaine fois que le site a renommé sa classe, il retrouve l’élément via similarité.
