Cloudflare /crawl : Aspirez un site entier en un seul appel API grâce à l'IA

Imaginez extraire l’intégralité d’un site web en un seul clic, sans script complexe ni serveur à gérer. C’est désormais possible avec Cloudflare /crawl, un nouvel endpoint de l’offre Browser Rendering qui automatise le crawling et la conversion de contenu en HTML, Markdown ou JSON. Idéal pour les développeurs, les équipes marketing ou les chercheurs, cette solution clé en main promet de révolutionner l’aspiration de données web.

Mais comment ça marche exactement ? Quels sont ses avantages et ses limites ? Plongeons dans cette innovation qui pourrait bien devenir incontournable.

Un crawler intelligent et sans code

Le principal atout de Cloudflare /crawl réside dans sa simplicité d’utilisation. Contrairement aux solutions traditionnelles qui nécessitent des scripts Python, des headless browsers gourmands en ressources ou des outils comme Scrapy, ce service s’appuie sur une API unique pour aspirer un site entier. Il suffit d’envoyer une requête POST avec l’URL de départ, et le système se charge de tout :

Découverte automatique des pages : via le sitemap XML, les liens internes ou une combinaison des deux.
Rendu dans un navigateur headless : le contenu est généré comme s’il était affiché dans un navigageur classique, garantissant un rendu fidèle (JavaScript, CSS, etc.).
Export en plusieurs formats : HTML brut, Markdown structuré ou JSON grâce à l’intégration de Workers AI pour une extraction intelligente des données.

Le processus est asynchrone : vous recevez un job ID immédiatement, puis récupérez les résultats ultérieurement. Plus besoin de surveiller un script qui plante toutes les 48 heures ou de gérer des ressources serveur dédiées.

Des filtres avancés pour un crawling ciblé

Cloudflare /crawl ne se contente pas d’aspirer aveuglément. Il propose des options de filtrage avancées pour affiner les résultats selon vos besoins :

includePatterns : inclure uniquement les URLs correspondant à un motif (ex: \ »/blog/*\ »).
excludePatterns : exclure les URLs indésirables (ex: \ »/admin/*\ », \ »/login\ »).
modifiedSince : ne récupérer que les pages modifiées depuis une date donnée (format ISO 8601).

Ces filtres permettent de cibler précisément les données à extraire, évitant ainsi de surcharger le traitement ou de récupérer des informations inutiles. Par exemple, un e-commerçant pourrait aspirer uniquement les fiches produits mises à jour dans le mois, tandis qu’un blogueur se concentrerait sur les articles publiés depuis janvier.

Idéal pour le scraping de données structurées

L’une des fonctionnalités les plus puissantes de Cloudflare /crawl est son intégration avec Workers AI, qui permet d’extraire des données structurées automatiquement. Imaginez aspirer 500 fiches produits d’un site e-commerce en une seule passe, avec les prix, descriptions, images et références organisées en JSON. Plus besoin de parser manuellement chaque page !

Cette capacité est particulièrement utile pour :

La veille concurrentielle : suivre les prix et promotions d’un concurrent.
La collecte de données pour l’IA : alimenter un modèle de langage avec des informations fraîches.
L’archivage de contenu : sauvegarder un site avant qu’il ne soit modifié ou supprimé.
Les migrations de sites : extraire le contenu d’un ancien site pour le réimporter sur une nouvelle plateforme.

Le format JSON structuré facilite ensuite l’intégration des données dans des outils comme Notion, Airtable ou une base de données relationnelle.

Tarification et limites : ce qu’il faut savoir

Cloudflare /crawl est disponible gratuitement dans le cadre du plan Free de Workers, ce qui en fait une solution accessible même pour les petits projets. Voici les principales contraintes à connaître :

Durée de conservation des résultats : 14 jours après la fin du job.
Durée maximale d’exécution : 7 jours par job (pour éviter les abus).
Respect de robots.txt : le crawler se conforme aux règles du fichier, évitant ainsi les conflits avec les administrateurs de sites.
Limite de pages par défaut : 10 pages maximum, mais configurable via des paramètres avancés.

Pour les besoins plus exigeants, Cloudflare propose des plans payants avec des quotas supérieurs. Cependant, la version gratuite est déjà très généreuse pour des usages occasionnels ou des tests.

Comment démarrer avec Cloudflare /crawl ?

Prêt à tester ? Voici les étapes pour lancer votre premier crawl en quelques minutes :

Créer un token API : rendez-vous dans votre Cloudflare Dashboard, section API Tokens. Générez un nouveau token avec la permission \ »Browser Rendering – Edit\ ». Notez aussi votre Account ID (visible dans l’URL ou la section Overview).
Lancer le crawl : utilisez la commande curl suivante (remplacez les placeholders) :
curl -X POST https://api.cloudflare.com/client/v4/accounts/VOTRE_ACCOUNT_ID/browser-rendering/crawl \\ -H \ »Authorization: Bearer VOTRE_TOKEN\ » \\ -H \ »Content-Type: application/json\ » \\ -d ‘{ \ »url\ »: \ »https://example.com\ », \ »maxPages\ »: 50, \ »includePatterns\ »: [\ »/blog/*\ »], \ »outputFormat\ »: \ »json\ » }’
Récupérer les résultats : une fois le job terminé (vous recevrez une notification ou vérifiez manuellement), récupérez les données via l’endpoint :
curl -X GET https://api.cloudflare.com/client/v4/accounts/VOTRE_ACCOUNT_ID/browser-rendering/crawl/VOTRE_JOB_ID \\ -H \ »Authorization: Bearer VOTRE_TOKEN\ »

Vous pouvez aussi utiliser des bibliothèques comme Python-requests ou des outils comme Postman pour automatiser le processus.

Alternatives et comparaison

Cloudflare /crawl n’est pas la seule solution de crawling sur le marché, mais elle se distingue par sa simplicité et son intégration native avec l’écosystème Cloudflare. Voici un comparatif rapide avec d’autres outils :

Outil	Type	Gratuit	Rendu JS	Export structuré
Cloudflare /crawl	SaaS (Cloudflare)	Oui (limité)	Oui	Oui (JSON/Markdown)
Scrapy	Open Source	Oui	Non (nécessite Splash)	Non (nécessite parsing)
Apify	SaaS	Source : https://korben.info/cloudflare-browser-rendering-crawl-api.html Navigation de l’article Précédent Comment connecter un câble SATA FFC à votre NUC ASUS : guide étape par étape Suivant Un outil forensic open source accessible à tous Publications similaires Sécurité & Réseau YesWeHack lance des agents IA autonomes pour détecter et corriger les vulnérabilités en temps réel Paradmin 26 juin 2026 YesWeHack, plateforme française de bug bounty, déploie des agents IA autonomes capables de détecter, prioriser et corriger les vulnérabilités de sécurité en temps réel. Une innovation qui marque un tournant vers une cybersécurité proactive et automatisée, accessible aux entreprises de toutes tailles. Décryptage d’une technologie prometteuse et de ses enjeux. Lire la suite YesWeHack lance des agents IA autonomes pour détecter et corriger les vulnérabilités en temps réel Sécurité & Réseau Pourquoi réinstaller une ROM officielle sur votre Galaxy Tab 4 10.1 ? Paradmin 15 décembre 20243 juillet 2026 {« title »: »Samsung Galaxy Tab 4 10.1 : Où trouver les ROMs officielles pour SM-T530 et SM-T535 ? », « content »: » Votre Samsung Galaxy Tab 4 10.1 (SM-T530 ou SM-T535) commence à montrer des signes de len Lire la suite Pourquoi réinstaller une ROM officielle sur votre Galaxy Tab 4 10.1 ? Sécurité & Réseau Claude Code d’Anthropic espionnait les développeurs via de la stéganographie Unicode : le scandale qui secoue l’IA Paradmin 2 juillet 2026 Claude Code d’Anthropic utilisait une technique de stéganographie Unicode pour tracer les développeurs passant par des intermédiaires chinois, sans transparence ni consentement. Une révélation qui interroge sur l’éthique des outils IA et la protection des données. Lire la suite Claude Code d’Anthropic espionnait les développeurs via de la stéganographie Unicode : le scandale qui secoue l’IA Sécurité & Réseau Auto-héberger son gestionnaire de mots de passe avec Vaultwarden : la solution légère et open source pour reprendre le contrôle de ses identifiants Paradmin 1 juillet 20262 juillet 2026 Les gestionnaires de mots de passe sont devenus des outils indispensables dans notre quotidien numérique. Pourtant, confier ses identifiants à des services tiers com Lire la suite Auto-héberger son gestionnaire de mots de passe avec Vaultwarden : la solution légère et open source pour reprendre le contrôle de ses identifiants Sécurité & Réseau Remplacer sa Bbox Fibre par un MikroTik : Guide Complet pour IPv4, IPv6 et TV Replay Paradmin 9 décembre 20252 juillet 2026 Vous en avez assez de la box SFR et souhaitez prendre le contrôle total de votre connexion fibre ? Remplacer votre Bbox Fibre par un routeur MikroTik est une solution technique puissante, mais comp Lire la suite Remplacer sa Bbox Fibre par un MikroTik : Guide Complet pour IPv4, IPv6 et TV Replay Sécurité & Réseau Remplacer sa Bbox : plongée dans la rétro-ingénierie des équipements Orange Paradmin 9 décembre 20252 juillet 2026 La migration vers un routeur tiers pour remplacer sa Bbox Orange est un projet qui fascine de plus en plus d’utilisateurs, motivés par la liberté de choix ou la rech Lire la suite Remplacer sa Bbox : plongée dans la rétro-ingénierie des équipements Orange © 2026 Blog O-AM - Thème WordPress par Kadence WP THÈME Domotique & DIY IA & LLM Sécurité & Réseau Veille Tech Actualités Crypto & DePIN