technique

robots.txt pour les IA : exemples par cas d'usage

Un robots.txt bien ecrit pour les 12 crawlers d'IA qui comptent en 2026, avec exemples commentes.

Mehdi Benali
 
yellow robot toy on black table
yellow robot toy on black table

Ton robots.txt est le point d’entree de toute strategie GEO. Il decide quels crawlers peuvent lire ton site, donc quelles IA peuvent te citer. Pourtant, la plupart des sites ont un robots.txt obsolete qui date d’avant l’ere GEO. Voici le guide pratique pour le mettre a jour.

La structure basique

Un robots.txt est un simple fichier texte place a la racine de ton site : https://tondomaine.fr/robots.txt. Sa syntaxe est tres simple :

User-agent: [nom du bot]
Allow: [chemin autorise]
Disallow: [chemin interdit]

Tu peux repeter ces blocs pour chaque bot, et ajouter une ligne Sitemap: https://tondomaine.fr/sitemap.xml a la fin.

Les bots IA a gerer en 2026

Voici les 12 crawlers IA majeurs que tu rencontres :

BotEntrepriseRole
GPTBotOpenAIEntrainement ChatGPT
ChatGPT-UserOpenAIBrowse live ChatGPT
OAI-SearchBotOpenAISearchGPT (moteur de recherche)
ClaudeBotAnthropicEntrainement Claude
anthropic-aiAnthropicBrowse live Claude
ClaudeUserAnthropicUser-initiated reads
PerplexityBotPerplexityCrawler Perplexity
Perplexity-UserPerplexityUser-initiated Perplexity
Google-ExtendedGoogleEntrainement Gemini/Bard
Applebot-ExtendedAppleEntrainement Apple Intelligence
CCBotCommon CrawlDataset commun pour la plupart des LLM
BytespiderByteDance (TikTok)Entrainement Doubao

Bonus : Meta-ExternalAgent (Meta/Llama), FacebookBot, Diffbot, Omgilibot, Amazonbot.

Exemple de robots.txt “tout autoriser” (recommande pour PME)

User-agent: *
Allow: /

# AI crawlers : tous autorises explicitement
User-agent: GPTBot
Allow: /

User-agent: ChatGPT-User
Allow: /

User-agent: OAI-SearchBot
Allow: /

User-agent: ClaudeBot
Allow: /

User-agent: anthropic-ai
Allow: /

User-agent: ClaudeUser
Allow: /

User-agent: PerplexityBot
Allow: /

User-agent: Perplexity-User
Allow: /

User-agent: Google-Extended
Allow: /

User-agent: Applebot-Extended
Allow: /

User-agent: CCBot
Allow: /

User-agent: Bytespider
Allow: /

Sitemap: https://tondomaine.fr/sitemap-index.xml

C’est la config de Pulsari et la recommendation par defaut pour 90% des marques.

Exemple : exclure certaines sections

Si tu as des sections privees ou premium :

User-agent: *
Allow: /

User-agent: GPTBot
Allow: /
Disallow: /members/
Disallow: /premium/
Disallow: /clients/

User-agent: ClaudeBot
Allow: /
Disallow: /members/
Disallow: /premium/
Disallow: /clients/

# ... meme chose pour chaque user-agent IA

Sitemap: https://tondomaine.fr/sitemap-index.xml

La repetition est lourde mais necessaire : chaque user-agent doit etre traite explicitement.

Exemple : editeur presse ou premium qui ne veut pas nourrir l’entrainement

User-agent: *
Allow: /

# Entrainement : bloque
User-agent: GPTBot
Disallow: /

User-agent: ClaudeBot
Disallow: /

User-agent: Google-Extended
Disallow: /

User-agent: Applebot-Extended
Disallow: /

User-agent: CCBot
Disallow: /

User-agent: Bytespider
Disallow: /

# User-initiated (un utilisateur demande explicitement a une IA de lire une page) : autorise
User-agent: ChatGPT-User
Allow: /

User-agent: anthropic-ai
Allow: /

User-agent: ClaudeUser
Allow: /

User-agent: Perplexity-User
Allow: /

# Moteur de recherche (SearchGPT) : autorise pour le referencement
User-agent: OAI-SearchBot
Allow: /

Sitemap: https://tondomaine.fr/sitemap-index.xml

Cette config est celle utilisee par plusieurs grands groupes de presse francaise. Elle autorise la visibilite dans les reponses a la demande mais refuse l’entrainement permanent.

Les erreurs courantes a eviter

Erreur 1 : User-agent: * seul

Beaucoup de sites ont juste :

User-agent: *
Allow: /

C’est une config “par defaut autoriser tout”, ce qui inclut les bots IA. Mais cette config est ambigue pour certains crawlers qui cherchent des directives specifiques (GPTBot cherche explicitement son nom). Ajoute les user-agents IA explicitement pour plus de clarte.

Erreur 2 : Disallow: / par erreur

Une config avec un Disallow: / qui s’applique a User-agent: * bloque tous les bots sans exception. Catastrophique : tu disparais de Google ET des IA.

Double-check toujours ton robots.txt apres modification.

Erreur 3 : paste de config trouvee sur internet

Ne copie pas un robots.txt d’un grand site sans reflechir. Les grandes marques ont des besoins specifiques (blocage de certaines URLs, gestion de rate limiting) qui ne correspondent pas aux tiens.

Erreur 4 : oubli du sitemap

La ligne Sitemap: a la fin de ton robots.txt est importante : elle indique aux crawlers ou chercher la liste de tes pages. Sans sitemap declare, les crawlers doivent tout decouvrir par suivi de liens, ce qui est moins efficace.

Tester ton robots.txt

Outil 1 : le robots.txt tester de Google

Google Search Console > Paramètres > Crawling > “Tester le fichier robots.txt”. Permet de tester n’importe quel user-agent et n’importe quelle URL.

Outil 2 : verifier manuellement

Ouvre https://tondomaine.fr/robots.txt dans ton navigateur. Si tu vois du texte, c’est bon. Si tu vois une erreur 404, ton robots.txt n’existe pas. Si tu vois du HTML, tu as un probleme serveur.

Outil 3 : logs serveur

Apres modification, surveille tes logs :

grep -E "GPTBot|ClaudeBot|PerplexityBot|Google-Extended|Applebot" /var/log/nginx/access.log | tail -30

Tu devrais voir les IA crawlers passer regulierement.

Sitemap a jour obligatoire

Ton sitemap doit lister toutes tes pages publiques, avec :

  • <loc> : URL
  • <lastmod> : date de derniere modif (important pour la fraicheur)
  • <priority> : optionnel, de 0 a 1

Utilise un generateur automatique (plugin WordPress Yoast, Astro sitemap plugin) plutot que du manuel.

En resume

Un robots.txt GEO-ready en 2026 doit :

  1. Lister explicitement les 10 a 12 crawlers IA majeurs
  2. Avoir une position claire (tout autoriser, ou exclusions specifiques)
  3. Declarer le sitemap
  4. Etre teste apres chaque modification

Pour aller plus loin : GPTBot configuration, ClaudeBot guide, Applebot-Extended, audit Pulsari.

FAQ

Comment identifier tous les bots IA qui crawlent mon site en 2026 ?

Pour identifier les bots IA, analysez vos logs serveur en recherchant les User-Agent contenant “GPTBot”, “ClaudeBot”, “PerplexityBot”, “Bard”, “CCBot” et “Claude-Web”. Utilisez des outils comme Pulsari pour auditer votre crawlabilité IA. Les principaux bots représentent 15-25% du trafic crawler selon les secteurs. Surveillez également les nouveaux entrants comme MetaAI et les bots émergents qui changent fréquemment leurs signatures d’identification.

Quels sont les impacts SEO concrets de bloquer GPTBot en 2026 ?

Bloquer GPTBot peut réduire votre visibilité dans ChatGPT de 40-60% selon les requêtes. Cependant, 73% des sites B2B bloquent sélectivement certaines sections sensibles tout en autorisant les pages produits et contenus publics. L’impact sur le SEO traditionnel Google reste nul, mais vous perdez des opportunités de référencement dans l’écosystème IA qui génère 28% des requêtes informationnelles en 2026.

Comment configurer robots.txt pour autoriser seulement certaines pages aux bots IA ?

Utilisez la directive “Allow:” après “Disallow: /” pour créer des exceptions. Exemple : “User-agent: GPTBot”, “Disallow: /”, “Allow: /blog/”, “Allow: /produits/”. Cette configuration bloque tout sauf les dossiers autorisés. Testez avec l’outil de validation robots.txt et vérifiez via Pulsari que 100% de vos pages stratégiques restent crawlables. Évitez les wildcards complexes qui peuvent créer des conflits d’interprétation.

Quelle différence entre bloquer ClaudeBot vs GPTBot pour le SEO local ?

ClaudeBot indexe davantage les données géolocalisées et les avis clients (45% de focus local vs 23% pour GPTBot). Pour le SEO local, autoriser ClaudeBot sur vos pages établissements, horaires et avis améliore votre présence dans Claude pour les requêtes “près de moi”. GPTBot privilégie le contenu informatif général. Les entreprises locales voient 30% plus de mentions géolocalisées en autorisant ClaudeBot vs blocage complet.

Comment mesurer l’efficacité de ma stratégie robots.txt pour les bots IA ?

Utilisez Google Search Console pour monitorer l’évolution du crawl, Pulsari pour l’audit spécifique IA, et analysez vos mentions dans les réponses ChatGPT/Claude via des outils de brand monitoring. Mesurez : taux de crawl autorisé (objectif 80-90% pages stratégiques), fréquence de mise à jour du contenu dans les IA (contrôle mensuel), et corrélation avec le trafic référent depuis les plateformes IA (croissance 15-25% attendue).

Sources et references


Articles similaires

#robots.txt ia#user-agent ia#crawler ia

Prends le pouls de ta visibilité IA

Teste si ta marque est citée par Claude et Gemini en 30 secondes. Gratuit, sans inscription.