Ton robots.txt est le point d’entree de toute strategie GEO. Il decide quels crawlers peuvent lire ton site, donc quelles IA peuvent te citer. Pourtant, la plupart des sites ont un robots.txt obsolete qui date d’avant l’ere GEO. Voici le guide pratique pour le mettre a jour.
La structure basique
Un robots.txt est un simple fichier texte place a la racine de ton site : https://tondomaine.fr/robots.txt. Sa syntaxe est tres simple :
User-agent: [nom du bot]
Allow: [chemin autorise]
Disallow: [chemin interdit]
Tu peux repeter ces blocs pour chaque bot, et ajouter une ligne Sitemap: https://tondomaine.fr/sitemap.xml a la fin.
Les bots IA a gerer en 2026
Voici les 12 crawlers IA majeurs que tu rencontres :
| Bot | Entreprise | Role |
|---|---|---|
| GPTBot | OpenAI | Entrainement ChatGPT |
| ChatGPT-User | OpenAI | Browse live ChatGPT |
| OAI-SearchBot | OpenAI | SearchGPT (moteur de recherche) |
| ClaudeBot | Anthropic | Entrainement Claude |
| anthropic-ai | Anthropic | Browse live Claude |
| ClaudeUser | Anthropic | User-initiated reads |
| PerplexityBot | Perplexity | Crawler Perplexity |
| Perplexity-User | Perplexity | User-initiated Perplexity |
| Google-Extended | Entrainement Gemini/Bard | |
| Applebot-Extended | Apple | Entrainement Apple Intelligence |
| CCBot | Common Crawl | Dataset commun pour la plupart des LLM |
| Bytespider | ByteDance (TikTok) | Entrainement Doubao |
Bonus : Meta-ExternalAgent (Meta/Llama), FacebookBot, Diffbot, Omgilibot, Amazonbot.
Exemple de robots.txt “tout autoriser” (recommande pour PME)
User-agent: *
Allow: /
# AI crawlers : tous autorises explicitement
User-agent: GPTBot
Allow: /
User-agent: ChatGPT-User
Allow: /
User-agent: OAI-SearchBot
Allow: /
User-agent: ClaudeBot
Allow: /
User-agent: anthropic-ai
Allow: /
User-agent: ClaudeUser
Allow: /
User-agent: PerplexityBot
Allow: /
User-agent: Perplexity-User
Allow: /
User-agent: Google-Extended
Allow: /
User-agent: Applebot-Extended
Allow: /
User-agent: CCBot
Allow: /
User-agent: Bytespider
Allow: /
Sitemap: https://tondomaine.fr/sitemap-index.xml
C’est la config de Pulsari et la recommendation par defaut pour 90% des marques.
Exemple : exclure certaines sections
Si tu as des sections privees ou premium :
User-agent: *
Allow: /
User-agent: GPTBot
Allow: /
Disallow: /members/
Disallow: /premium/
Disallow: /clients/
User-agent: ClaudeBot
Allow: /
Disallow: /members/
Disallow: /premium/
Disallow: /clients/
# ... meme chose pour chaque user-agent IA
Sitemap: https://tondomaine.fr/sitemap-index.xml
La repetition est lourde mais necessaire : chaque user-agent doit etre traite explicitement.
Exemple : editeur presse ou premium qui ne veut pas nourrir l’entrainement
User-agent: *
Allow: /
# Entrainement : bloque
User-agent: GPTBot
Disallow: /
User-agent: ClaudeBot
Disallow: /
User-agent: Google-Extended
Disallow: /
User-agent: Applebot-Extended
Disallow: /
User-agent: CCBot
Disallow: /
User-agent: Bytespider
Disallow: /
# User-initiated (un utilisateur demande explicitement a une IA de lire une page) : autorise
User-agent: ChatGPT-User
Allow: /
User-agent: anthropic-ai
Allow: /
User-agent: ClaudeUser
Allow: /
User-agent: Perplexity-User
Allow: /
# Moteur de recherche (SearchGPT) : autorise pour le referencement
User-agent: OAI-SearchBot
Allow: /
Sitemap: https://tondomaine.fr/sitemap-index.xml
Cette config est celle utilisee par plusieurs grands groupes de presse francaise. Elle autorise la visibilite dans les reponses a la demande mais refuse l’entrainement permanent.
Les erreurs courantes a eviter
Erreur 1 : User-agent: * seul
Beaucoup de sites ont juste :
User-agent: *
Allow: /
C’est une config “par defaut autoriser tout”, ce qui inclut les bots IA. Mais cette config est ambigue pour certains crawlers qui cherchent des directives specifiques (GPTBot cherche explicitement son nom). Ajoute les user-agents IA explicitement pour plus de clarte.
Erreur 2 : Disallow: / par erreur
Une config avec un Disallow: / qui s’applique a User-agent: * bloque tous les bots sans exception. Catastrophique : tu disparais de Google ET des IA.
Double-check toujours ton robots.txt apres modification.
Erreur 3 : paste de config trouvee sur internet
Ne copie pas un robots.txt d’un grand site sans reflechir. Les grandes marques ont des besoins specifiques (blocage de certaines URLs, gestion de rate limiting) qui ne correspondent pas aux tiens.
Erreur 4 : oubli du sitemap
La ligne Sitemap: a la fin de ton robots.txt est importante : elle indique aux crawlers ou chercher la liste de tes pages. Sans sitemap declare, les crawlers doivent tout decouvrir par suivi de liens, ce qui est moins efficace.
Tester ton robots.txt
Outil 1 : le robots.txt tester de Google
Google Search Console > Paramètres > Crawling > “Tester le fichier robots.txt”. Permet de tester n’importe quel user-agent et n’importe quelle URL.
Outil 2 : verifier manuellement
Ouvre https://tondomaine.fr/robots.txt dans ton navigateur. Si tu vois du texte, c’est bon. Si tu vois une erreur 404, ton robots.txt n’existe pas. Si tu vois du HTML, tu as un probleme serveur.
Outil 3 : logs serveur
Apres modification, surveille tes logs :
grep -E "GPTBot|ClaudeBot|PerplexityBot|Google-Extended|Applebot" /var/log/nginx/access.log | tail -30
Tu devrais voir les IA crawlers passer regulierement.
Sitemap a jour obligatoire
Ton sitemap doit lister toutes tes pages publiques, avec :
<loc>: URL<lastmod>: date de derniere modif (important pour la fraicheur)<priority>: optionnel, de 0 a 1
Utilise un generateur automatique (plugin WordPress Yoast, Astro sitemap plugin) plutot que du manuel.
En resume
Un robots.txt GEO-ready en 2026 doit :
- Lister explicitement les 10 a 12 crawlers IA majeurs
- Avoir une position claire (tout autoriser, ou exclusions specifiques)
- Declarer le sitemap
- Etre teste apres chaque modification
Pour aller plus loin : GPTBot configuration, ClaudeBot guide, Applebot-Extended, audit Pulsari.
FAQ
Comment identifier tous les bots IA qui crawlent mon site en 2026 ?
Pour identifier les bots IA, analysez vos logs serveur en recherchant les User-Agent contenant “GPTBot”, “ClaudeBot”, “PerplexityBot”, “Bard”, “CCBot” et “Claude-Web”. Utilisez des outils comme Pulsari pour auditer votre crawlabilité IA. Les principaux bots représentent 15-25% du trafic crawler selon les secteurs. Surveillez également les nouveaux entrants comme MetaAI et les bots émergents qui changent fréquemment leurs signatures d’identification.
Quels sont les impacts SEO concrets de bloquer GPTBot en 2026 ?
Bloquer GPTBot peut réduire votre visibilité dans ChatGPT de 40-60% selon les requêtes. Cependant, 73% des sites B2B bloquent sélectivement certaines sections sensibles tout en autorisant les pages produits et contenus publics. L’impact sur le SEO traditionnel Google reste nul, mais vous perdez des opportunités de référencement dans l’écosystème IA qui génère 28% des requêtes informationnelles en 2026.
Comment configurer robots.txt pour autoriser seulement certaines pages aux bots IA ?
Utilisez la directive “Allow:” après “Disallow: /” pour créer des exceptions. Exemple : “User-agent: GPTBot”, “Disallow: /”, “Allow: /blog/”, “Allow: /produits/”. Cette configuration bloque tout sauf les dossiers autorisés. Testez avec l’outil de validation robots.txt et vérifiez via Pulsari que 100% de vos pages stratégiques restent crawlables. Évitez les wildcards complexes qui peuvent créer des conflits d’interprétation.
Quelle différence entre bloquer ClaudeBot vs GPTBot pour le SEO local ?
ClaudeBot indexe davantage les données géolocalisées et les avis clients (45% de focus local vs 23% pour GPTBot). Pour le SEO local, autoriser ClaudeBot sur vos pages établissements, horaires et avis améliore votre présence dans Claude pour les requêtes “près de moi”. GPTBot privilégie le contenu informatif général. Les entreprises locales voient 30% plus de mentions géolocalisées en autorisant ClaudeBot vs blocage complet.
Comment mesurer l’efficacité de ma stratégie robots.txt pour les bots IA ?
Utilisez Google Search Console pour monitorer l’évolution du crawl, Pulsari pour l’audit spécifique IA, et analysez vos mentions dans les réponses ChatGPT/Claude via des outils de brand monitoring. Mesurez : taux de crawl autorisé (objectif 80-90% pages stratégiques), fréquence de mise à jour du contenu dans les IA (contrôle mensuel), et corrélation avec le trafic référent depuis les plateformes IA (croissance 15-25% attendue).
Sources et references
- OpenAI GPTBot documentation : user-agent, IP ranges, comportement
- Anthropic ClaudeBot documentation : crawler ClaudeBot, opt-in/opt-out
- Google Extended documentation : Google-Extended pour Bard/Gemini
- Perplexity crawler user-agents : PerplexityBot
- Google Search Console - test robots.txt : outil officiel validation