En parallele de son crawler historique Googlebot, Google a deploye un user-agent special : Google-Extended. Il permet aux editeurs de controler si leurs contenus servent a entrainer Bard et Gemini, independamment de l’indexation Google classique. C’est une subtilite importante a maitriser pour ta strategie GEO.
Pourquoi Google a cree Google-Extended
Avant Google-Extended, un editeur qui bloquait Googlebot dans son robots.txt pour opt-out de l’entrainement IA bloquait aussi l’indexation Google Search classique. Consequence : zero trafic organique. Inacceptable pour la majorite des sites.
Google a donc separe les deux fonctions :
- Googlebot : indexation pour Google Search (position, AI Overviews, rich results)
- Google-Extended : utilisation pour entrainer les modeles Bard / Gemini
Tu peux autoriser l’un et bloquer l’autre, ou l’inverse, ou les deux, selon ta strategie.
Le user-agent
Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; Google-Extended)
Documentation officielle : https://developers.google.com/search/docs/crawling-indexing/overview-google-crawlers
Les 4 configurations possibles
Config 1 : tout autoriser (recommande dans 90% des cas)
User-agent: Googlebot
Allow: /
User-agent: Google-Extended
Allow: /
Consequences :
- Ton site est indexe pour Google Search
- Ton contenu peut etre utilise par Bard et Gemini
- Tu apparais dans les AI Overviews (si Gemini te juge pertinent)
- Tu es visible dans les reponses de Gemini (app, chatbot, API)
Config 2 : Google Search oui, Gemini non
User-agent: Googlebot
Allow: /
User-agent: Google-Extended
Disallow: /
Consequences :
- Ton site reste indexe normalement par Google Search
- Ton contenu n’est PAS utilise pour entrainer Gemini
- Mais : impact sur les AI Overviews est flou (Google ne communique pas precisement)
- Ta visibilite dans Gemini chatbot / API est reduite voire nulle
Cas d’usage : editeurs qui veulent rester dans Google Search mais qui refusent que leur contenu alimente les modeles IA concurrents (certains grands medias). Cas rare pour les PME.
Config 3 : Gemini oui, Google Search non
User-agent: Googlebot
Disallow: /
User-agent: Google-Extended
Allow: /
Consequences :
- Ton site n’est pas indexe dans Google Search
- Mais ton contenu peut quand meme servir a Gemini
Cas d’usage : absurde pour 99% des marques. On ne connait pas de cas reel ou cette config serait rationnelle.
Config 4 : tout bloquer
User-agent: Googlebot
Disallow: /
User-agent: Google-Extended
Disallow: /
Tu t’exclus totalement de Google. Rare, sauf pour sites premium payants, sites d’entreprises privees, ou positions editoriales fortes.
L’impact reel sur les AI Overviews
Officiellement, Google ne dit pas si Google-Extended influence directement les AI Overviews. Mais l’observation empirique suggere que non : les AI Overviews tirent leurs sources du meme index que Google Search. Donc tant que Googlebot est autorise, tu peux etre cite dans les AI Overviews, meme si Google-Extended est bloque.
Attention : cette observation peut changer avec les mises a jour de Google. Verifie regulierement.
Que se passe-t-il si tu ne fais rien
Par defaut (pas de directive explicite), les deux user-agents sont autorises. Tu beneficies de Google Search + Gemini + AI Overviews. C’est le cas pour la grande majorite des sites.
Donc : si tu n’as rien fait, tu es probablement en config 1 par defaut. Bonne nouvelle.
Le piege a eviter
Beaucoup de sites, avant la creation de Google-Extended (avant septembre 2023), avaient ajoute dans leur robots.txt :
User-agent: *
Disallow: /admin/
Disallow: /private/
Ces sites sont automatiquement autorises pour Google-Extended (via le wildcard *). Pas de changement necessaire.
Mais si quelqu’un a ajoute par la suite un blocage “anti-IA” generique comme :
User-agent: *
Disallow: /content/
Il bloque AUSSI Google-Extended sur /content/, ce qui peut etre involontaire. Verifie tes regles wildcards.
Comment verifier ta config actuelle
- Ouvre
https://tondomaine.fr/robots.txtdans ton navigateur - Cherche
Google-Extended - Si tu le trouves avec
Allow: /ouDisallow: /, tu as une config explicite - Si tu ne le trouves pas, tu es en config wildcard (par defaut : autorise)
Pour tester l’impact concret :
- Pulsari te donne un audit gratuit qui inclut la visibilite Gemini
- Google Search Console ne montre pas directement Google-Extended, mais observer tes logs serveurs te dit quand il crawle
Recommandations selon ton business
Site grand public / PME / e-commerce
Config 1 (tout autoriser). Aucune raison de bloquer, beaucoup a gagner en visibilite Gemini.
Site de presse ou medias
Config 1 ou config 2 selon la position editoriale. Les grands journaux americains (NYT, WSJ) ont bloque via Google-Extended en attente de negociations commerciales avec Google. A reflechir pour la presse francaise, mais solution plus pragmatique : autoriser et negocier les licences en parallele.
Formation / cours en ligne payants
Config 2 (autoriser Google Search, bloquer Google-Extended) fait sens pour eviter que ton contenu de cours paye soit reformule gratuitement par Gemini.
Cabinet d’expertise (droit, finance, medical)
Config 1. Tu as plus a gagner en visibilite qu’a perdre en “vol” de contenu (qui est de toute facon assez balisee legalement).
Les effets dans le temps
Attention : Google-Extended n’efface pas retroactivement le contenu deja indexe. Si tu bloques en 2026 un contenu crawle en 2023, il peut rester dans les modeles deja entraines jusqu’a leur prochaine version.
Les nouvelles versions de Gemini respectent la directive en arretant d’utiliser le contenu pour le futur entrainement, mais le passe reste.
En resume
Google-Extended est un outil important pour les editeurs qui veulent une granularite fine entre SEO classique et IA. Pour 90% des marques, laisser le site entierement ouvert (config 1) est la bonne decision. Les cas de blocage sont specifiques et doivent etre reflechis.
Pour aller plus loin : Google AI Overviews : comment optimiser, Gemini vs ChatGPT, audit Pulsari gratuit.