Anthropic, le createur de Claude, a deploye deux crawlers principaux : ClaudeBot et anthropic-ai. Contrairement a OpenAI qui est parfois critique pour son manque de transparence, Anthropic est percue comme l’une des entreprises IA les plus respectueuses des editeurs. Voici tout ce que tu dois savoir sur leurs bots pour bien les configurer sur ton site.
ClaudeBot, anthropic-ai, ClaudeUser : qui fait quoi
Anthropic utilise plusieurs user-agents selon les cas d’usage :
ClaudeBot
Le crawler principal d’Anthropic. Son role : explorer les sites web publics, lire leur contenu et l’utiliser pour alimenter les modeles Claude (entrainement + potentiel grounding en temps reel).
Mozilla/5.0 (compatible; ClaudeBot/1.0; [email protected])
anthropic-ai
Un user-agent secondaire, utilise dans certains contextes de lecture en temps reel (quand un utilisateur pose une question et que Claude va chercher une page web en particulier).
Mozilla/5.0 (compatible; anthropic-ai/1.0)
ClaudeUser
Utilise quand un utilisateur final de Claude demande explicitement au modele de lire une page specifique (ex : “resume cet article : https://tondomaine.fr/article”). C’est different du crawling automatique.
Mozilla/5.0 (compatible; ClaudeUser/1.0)
La particularite Anthropic : le respect strict du robots.txt
Anthropic publie une documentation claire sur ses crawlers et respecte scrupuleusement les directives robots.txt. Si tu Disallow: / un de leurs user-agents, ils arretent immediatement de crawler.
C’est un point important : si tu veux opt-out, ca fonctionne proprement avec Anthropic. Tu peux avoir confiance que tes directives sont respectees.
Configuration recommandee
Pour la grande majorite des sites (recommande)
Autoriser tous les user-agents Anthropic :
User-agent: ClaudeBot
Allow: /
User-agent: anthropic-ai
Allow: /
User-agent: ClaudeUser
Allow: /
Pour bloquer l’entrainement mais autoriser les lectures a la demande
Si tu veux empecher Anthropic d’utiliser ton contenu pour entrainer ses modeles mais autoriser les utilisateurs finaux de Claude a lire ton site :
User-agent: ClaudeBot
Disallow: /
User-agent: anthropic-ai
Disallow: /
User-agent: ClaudeUser
Allow: /
Cette configuration est interessante pour les editeurs qui veulent garder leur contenu hors des donnees d’entrainement tout en restant accessibles aux utilisateurs qui demandent explicitement a Claude d’aller lire leur page.
Pour bloquer integralement
User-agent: ClaudeBot
Disallow: /
User-agent: anthropic-ai
Disallow: /
User-agent: ClaudeUser
Disallow: /
A utiliser seulement si tu as de bonnes raisons strategiques (contenu premium, position editoriale, etc).
Anthropic et le fair use
Anthropic s’est engagee publiquement, contrairement a certains concurrents, a respecter les mecanismes d’opt-out et a ne pas utiliser de contenu explicitement bloque. C’est l’une des raisons pour lesquelles elle est preferee par beaucoup d’editeurs.
Consequence pratique : tu peux faire confiance a ton robots.txt avec Anthropic. Ce n’est pas toujours le cas avec d’autres crawlers moins bien documentes.
Comment ClaudeBot choisit les pages a crawler
Frequence
Pour un site moyen : 1 a 2 visites par semaine. Pour un site populaire : plusieurs visites par jour. La frequence augmente avec la popularite et la fraicheur des contenus.
Profondeur
ClaudeBot suit les liens internes, avec une preference pour les contenus textuels (il evite les pages sans contenu substantiel comme les pages de tag, les archives vides). Profondeur typique : 4-5 clics depuis la home.
Respect du Crawl-delay
Si tu definis un Crawl-delay dans ton robots.txt, ClaudeBot le respecte. Exemple pour limiter la frequence :
User-agent: ClaudeBot
Allow: /
Crawl-delay: 5
5 secondes entre chaque requete. Utile si ton serveur est limite.
Comment Claude utilise ton contenu dans ses reponses
Quand un utilisateur pose une question a Claude, le modele peut :
- Se baser sur sa memoire d’entrainement (donnees crawlees par ClaudeBot jusqu’a son cutoff)
- Lire un document specifique si l’utilisateur lui fournit via ClaudeUser ou s’il active la recherche web
Dans les deux cas, Claude tend a citer ses sources de maniere plus explicite que GPT. C’est interessant pour le GEO : les citations Claude sont traceables.
Optimiser specifiquement pour Claude
Claude est reconnu pour etre particulierement sensible a la qualite du contenu. Plus que les autres LLM, il penalise le contenu de faible qualite (mal ecrit, superficiel, generique). Les leviers qui marchent le mieux :
1. Profondeur editoriale
Claude prefere un article de 1500 mots bien documente a 3 articles de 500 mots superficiels. Privilegie la profondeur.
2. Structure claire
H1 > H2 > H3 cohents, listes ordonnees, tableaux. Claude lit la structure et l’utilise pour organiser sa reponse.
3. Exemples concrets
Claude adore les exemples reels, chiffres, cas d’usage. Les articles trop abstraits sont moins cites.
4. Sources citees
Si toi-meme tu cites tes sources (liens vers etudes, institutions, rapports), Claude te considere comme un meta-source fiable et est plus enclin a te citer en retour.
5. Ton neutre et informatif
Claude favorise les contenus informatifs sur les contenus purement promotionnels. Garde ton ton editorial, meme si tu fais du marketing de contenu.
Verification technique
Pour verifier que ton site est bien crawle par ClaudeBot :
grep -i "ClaudeBot\|anthropic-ai\|ClaudeUser" /var/log/nginx/access.log | tail -30
Tu devrais voir des requetes recentes avec status 200. Si aucune ligne, ton site est peut-etre trop recent/petit pour avoir attire Claude ou tu as un blocage quelque part.
En resume
Anthropic et ses crawlers (ClaudeBot, anthropic-ai, ClaudeUser) sont parmi les plus respectueux du web. Les autoriser est un choix rationnel pour 95% des marques, et Claude est souvent le moteur qui cite le plus naturellement avec des descriptions riches.
Pour aller plus loin : guide robots.txt pour les IA, GPTBot : autoriser ou bloquer, audit Pulsari.