Cloudflare /crawl : Aspirez un site entier en un seul appel API grâce à l’IA

Imaginez extraire l’intégralité d’un site web en un seul clic, sans script complexe ni serveur à gérer. C’est désormais possible avec Cloudflare /crawl, un nouvel endpoint de l’offre Browser Rendering qui automatise le crawling et la conversion de contenu en HTML, Markdown ou JSON. Idéal pour les développeurs, les équipes marketing ou les chercheurs, cette solution clé en main promet de révolutionner l’aspiration de données web.

Mais comment ça marche exactement ? Quels sont ses avantages et ses limites ? Plongeons dans cette innovation qui pourrait bien devenir incontournable.

Un crawler intelligent et sans code

Le principal atout de Cloudflare /crawl réside dans sa simplicité d’utilisation. Contrairement aux solutions traditionnelles qui nécessitent des scripts Python, des headless browsers gourmands en ressources ou des outils comme Scrapy, ce service s’appuie sur une API unique pour aspirer un site entier. Il suffit d’envoyer une requête POST avec l’URL de départ, et le système se charge de tout :

  • Découverte automatique des pages : via le sitemap XML, les liens internes ou une combinaison des deux.
  • Rendu dans un navigateur headless : le contenu est généré comme s’il était affiché dans un navigageur classique, garantissant un rendu fidèle (JavaScript, CSS, etc.).
  • Export en plusieurs formats : HTML brut, Markdown structuré ou JSON grâce à l’intégration de Workers AI pour une extraction intelligente des données.

Le processus est asynchrone : vous recevez un job ID immédiatement, puis récupérez les résultats ultérieurement. Plus besoin de surveiller un script qui plante toutes les 48 heures ou de gérer des ressources serveur dédiées.

Des filtres avancés pour un crawling ciblé

Cloudflare /crawl ne se contente pas d’aspirer aveuglément. Il propose des options de filtrage avancées pour affiner les résultats selon vos besoins :

  • includePatterns : inclure uniquement les URLs correspondant à un motif (ex: \ »/blog/*\ »).
  • excludePatterns : exclure les URLs indésirables (ex: \ »/admin/*\ », \ »/login\ »).
  • modifiedSince : ne récupérer que les pages modifiées depuis une date donnée (format ISO 8601).

Ces filtres permettent de cibler précisément les données à extraire, évitant ainsi de surcharger le traitement ou de récupérer des informations inutiles. Par exemple, un e-commerçant pourrait aspirer uniquement les fiches produits mises à jour dans le mois, tandis qu’un blogueur se concentrerait sur les articles publiés depuis janvier.

Idéal pour le scraping de données structurées

L’une des fonctionnalités les plus puissantes de Cloudflare /crawl est son intégration avec Workers AI, qui permet d’extraire des données structurées automatiquement. Imaginez aspirer 500 fiches produits d’un site e-commerce en une seule passe, avec les prix, descriptions, images et références organisées en JSON. Plus besoin de parser manuellement chaque page !

Cette capacité est particulièrement utile pour :

  • La veille concurrentielle : suivre les prix et promotions d’un concurrent.
  • La collecte de données pour l’IA : alimenter un modèle de langage avec des informations fraîches.
  • L’archivage de contenu : sauvegarder un site avant qu’il ne soit modifié ou supprimé.
  • Les migrations de sites : extraire le contenu d’un ancien site pour le réimporter sur une nouvelle plateforme.

Le format JSON structuré facilite ensuite l’intégration des données dans des outils comme Notion, Airtable ou une base de données relationnelle.

Tarification et limites : ce qu’il faut savoir

Cloudflare /crawl est disponible gratuitement dans le cadre du plan Free de Workers, ce qui en fait une solution accessible même pour les petits projets. Voici les principales contraintes à connaître :

  • Durée de conservation des résultats : 14 jours après la fin du job.
  • Durée maximale d’exécution : 7 jours par job (pour éviter les abus).
  • Respect de robots.txt : le crawler se conforme aux règles du fichier, évitant ainsi les conflits avec les administrateurs de sites.
  • Limite de pages par défaut : 10 pages maximum, mais configurable via des paramètres avancés.

Pour les besoins plus exigeants, Cloudflare propose des plans payants avec des quotas supérieurs. Cependant, la version gratuite est déjà très généreuse pour des usages occasionnels ou des tests.

Comment démarrer avec Cloudflare /crawl ?

Prêt à tester ? Voici les étapes pour lancer votre premier crawl en quelques minutes :

  1. Créer un token API : rendez-vous dans votre Cloudflare Dashboard, section API Tokens. Générez un nouveau token avec la permission \ »Browser Rendering – Edit\ ». Notez aussi votre Account ID (visible dans l’URL ou la section Overview).
  2. Lancer le crawl : utilisez la commande curl suivante (remplacez les placeholders) :
    curl -X POST https://api.cloudflare.com/client/v4/accounts/VOTRE_ACCOUNT_ID/browser-rendering/crawl \\ -H \ »Authorization: Bearer VOTRE_TOKEN\ » \\ -H \ »Content-Type: application/json\ » \\ -d ‘{ \ »url\ »: \ »https://example.com\ », \ »maxPages\ »: 50, \ »includePatterns\ »: [\ »/blog/*\ »], \ »outputFormat\ »: \ »json\ » }’
  3. Récupérer les résultats : une fois le job terminé (vous recevrez une notification ou vérifiez manuellement), récupérez les données via l’endpoint :
    curl -X GET https://api.cloudflare.com/client/v4/accounts/VOTRE_ACCOUNT_ID/browser-rendering/crawl/VOTRE_JOB_ID \\ -H \ »Authorization: Bearer VOTRE_TOKEN\ »

Vous pouvez aussi utiliser des bibliothèques comme Python-requests ou des outils comme Postman pour automatiser le processus.

Alternatives et comparaison

Cloudflare /crawl n’est pas la seule solution de crawling sur le marché, mais elle se distingue par sa simplicité et son intégration native avec l’écosystème Cloudflare. Voici un comparatif rapide avec d’autres outils :

Outil Type Gratuit Rendu JS Export structuré
Cloudflare /crawl SaaS (Cloudflare) Oui (limité) Oui Oui (JSON/Markdown)
Scrapy Open Source Oui Non (nécessite Splash) Non (nécessite parsing)
Apify SaaS

Source : https://korben.info/cloudflare-browser-rendering-crawl-api.html

Publications similaires

THÈME