technique

PerplexityBot : tout savoir sur le crawler Perplexity

Comment PerplexityBot explore ton site, ce qu'il retient, et comment optimiser son passage.

Mehdi Benali
 

Si tu veux apparaitre dans Perplexity, tu dois d’abord autoriser PerplexityBot a venir lire ton site. Ca semble trivial, sauf que beaucoup de sites le bloquent par defaut via des firewalls trop agressifs. Voici le guide technique complet sur PerplexityBot.

Qui est PerplexityBot

PerplexityBot est le crawler officiel de Perplexity AI, l’un des moteurs de reponse IA les plus utilises en 2026. Son role : explorer les sites web, lire leur contenu et l’indexer pour alimenter les reponses que Perplexity genere.

Particularite : Perplexity utilise aussi d’autres sources (Brave Search API notamment) pour retrouver des pages pertinentes en temps reel. Mais le crawler propre de Perplexity est important pour l’indexation de fond de ton site.

Identifier PerplexityBot dans tes logs

User-agent officiel :

Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; PerplexityBot/1.0; +https://perplexity.ai/perplexitybot)

Plages d’IP : Perplexity publie ses plages d’IP sur sa documentation technique officielle. Elles changent occasionnellement, verifier tous les 6 mois.

Pour verifier dans tes logs nginx ou apache :

grep "PerplexityBot" /var/log/nginx/access.log | tail -20

Si tu ne vois aucune ligne, deux hypotheses : soit Perplexity ne t’a pas encore crawle, soit ton firewall bloque la requete avant qu’elle atteigne ton application.

Autoriser PerplexityBot dans robots.txt

Dans ton robots.txt, ajoute ou verifie :

User-agent: PerplexityBot
Allow: /

Si tu as des sections privees que tu veux exclure :

User-agent: PerplexityBot
Allow: /
Disallow: /admin/
Disallow: /client-area/

Attention : un Disallow: / par erreur bloque tout ton site. Verifie toujours avec robots.txt tester (fonctionne pour valider la syntaxe).

Debloquer PerplexityBot dans Cloudflare / WAF

Si tu passes par un WAF (Cloudflare, AWS WAF, Sucuri), il peut bloquer PerplexityBot par defaut sous le label “bot suspect” ou “scraper”.

Cloudflare

  1. Dashboard Cloudflare > ton domaine > Security > Bots
  2. Verifie la configuration “Bot Fight Mode” et “Super Bot Fight Mode”
  3. Si activee, ajoute PerplexityBot dans les “Verified Bots” autorises
  4. Alternative : regle WAF personnalisee pour autoriser le user-agent PerplexityBot

Note : Perplexity a normalement passe les certifications “verified bot” de Cloudflare, donc les blocages sont rares mais arrivent sur des configs anciennes.

AWS WAF / autres

Regle custom :

WHEN User-Agent contains "PerplexityBot"
THEN ALLOW

Ajoute cette regle en PRIORITY HIGH pour qu’elle passe avant les regles genericues de blocage de bots.

Comment PerplexityBot explore ton site

Frequence de crawl

PerplexityBot visite les sites populaires plusieurs fois par jour. Pour un site moyen (trafic < 10k/mois), comptez 1 a 3 visites par semaine.

Profondeur

Le crawler suit les liens internes jusqu’a une profondeur de ~5 clics depuis la home. Un site avec une architecture profonde (10+ clics) verra seulement les premieres pages indexees.

Action : garde ton architecture a 3-4 niveaux max. Home > Categorie > Article. Pas plus.

Respect du robots.txt

PerplexityBot respecte strictement le robots.txt, y compris les directives Disallow et les delais de crawl.

Respect des sitemap

PerplexityBot lit ton sitemap.xml si il est declare dans le robots.txt :

Sitemap: https://tondomaine.fr/sitemap-index.xml

Ce que PerplexityBot retient

Contenu texte integral

Tout le texte visible de chaque page. Titre, H1-H6, paragraphes, listes. Le texte dans les images (sans OCR) n’est pas retenu.

Metadata

  • <title> et <meta description>
  • Schema.org JSON-LD (TRES important)
  • Open Graph tags (og:title, og:description, og:image)
  • llms.txt si present (a partir de 2026)

Liens

Tous les liens internes pour construire un graphe du site. Les ancres (texte du lien) sont memorisees et aident a comprendre le sens de chaque page.

Ce qu’il ne retient pas

  • JavaScript-rendered content (sauf si tu fais du SSR)
  • Contenu derriere un login
  • Formulaires non soumis
  • Contenu masque par CSS (display: none en debut de page)

Optimiser pour PerplexityBot

1. Autoriser via robots.txt + WAF

Verifier chaque trimestre qu’aucune update de config ne t’a bloque.

2. Sitemap a jour

Ton sitemap doit contenir toutes tes pages publiques, avec lastmod a jour. Soumettre a Google Search Console ET le referencer dans robots.txt.

3. SSR ou pre-rendering

Si ton site est une SPA React/Vue/Angular pure (sans SSR), PerplexityBot verra une page quasi vide. Solution : passer en Next.js / Nuxt / Astro avec pre-rendering.

4. Architecture plate

Maximum 3-4 niveaux de profondeur depuis la home. Chaque page importante doit etre accessible en moins de 4 clics.

5. Liens internes abondants

Chaque article doit avoir 3 a 7 liens internes vers d’autres pages. Ca aide PerplexityBot a comprendre la structure thematique.

6. llms.txt

Oui, encore et toujours. Un bon llms.txt a la racine donne a PerplexityBot une comprehension directe de ton site en une lecture. Voir notre guide.

7. Monitoring

Surveille tes logs serveurs pour detecter quand PerplexityBot te visite et ce qu’il lit. Un outil comme Cloudflare Analytics ou Plausible te donne ces donnees gratuitement.

Ce qui bloque PerplexityBot sans que tu t’en rendes compte

  • Firewall trop agressif (Cloudflare Bot Fight Mode en mode “aggressive”)
  • Taux limit atteint (> 100 req/min depuis la meme IP = blacklist temporaire)
  • JavaScript-only pages (pas de SSR)
  • Popups modales qui bloquent le contenu (cookie banner enorme, popup newsletter)
  • robots.txt trop restrictif copié d’un ancien site

En resume

PerplexityBot est l’un des crawlers les plus importants a autoriser pour faire du GEO serieux. 10 minutes de verification de ton robots.txt + WAF + sitemap suffisent a eliminer 90% des blocages accidentels.

Pour aller plus loin : comment apparaitre dans Perplexity, guide llms.txt, audit Pulsari gratuit.


Articles similaires

#perplexitybot#crawler perplexity#robots.txt perplexity

Prends le pouls de ta visibilité IA

Teste si ta marque est citée par Claude et Gemini en 30 secondes. Gratuit, sans inscription.