technique

Google-Extended : controler ta visibilite Bard et Gemini

L'user-agent special que Google utilise pour entrainer Bard et Gemini, et comment decider quoi en faire.

Thomas Rivoire
 
white and brown concrete building beside body of water during daytime
white and brown concrete building beside body of water during daytime

En parallele de son crawler historique Googlebot, Google a deploye un user-agent special : Google-Extended. Il permet aux editeurs de controler si leurs contenus servent a entrainer Bard et Gemini, independamment de l’indexation Google classique. C’est une subtilite importante a maitriser pour ta strategie GEO.

Pourquoi Google a cree Google-Extended

Avant Google-Extended, un editeur qui bloquait Googlebot dans son robots.txt pour opt-out de l’entrainement IA bloquait aussi l’indexation Google Search classique. Consequence : zero trafic organique. Inacceptable pour la majorite des sites.

Google a donc separe les deux fonctions :

  • Googlebot : indexation pour Google Search (position, AI Overviews, rich results)
  • Google-Extended : utilisation pour entrainer les modeles Bard / Gemini

Tu peux autoriser l’un et bloquer l’autre, ou l’inverse, ou les deux, selon ta strategie.

Le user-agent

Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; Google-Extended)

Documentation officielle : https://developers.google.com/search/docs/crawling-indexing/overview-google-crawlers

Les 4 configurations possibles

Config 1 : tout autoriser (recommande dans 90% des cas)

User-agent: Googlebot
Allow: /

User-agent: Google-Extended
Allow: /

Consequences :

  • Ton site est indexe pour Google Search
  • Ton contenu peut etre utilise par Bard et Gemini
  • Tu apparais dans les AI Overviews (si Gemini te juge pertinent)
  • Tu es visible dans les reponses de Gemini (app, chatbot, API)

Config 2 : Google Search oui, Gemini non

User-agent: Googlebot
Allow: /

User-agent: Google-Extended
Disallow: /

Consequences :

  • Ton site reste indexe normalement par Google Search
  • Ton contenu n’est PAS utilise pour entrainer Gemini
  • Mais : impact sur les AI Overviews est flou (Google ne communique pas precisement)
  • Ta visibilite dans Gemini chatbot / API est reduite voire nulle

Cas d’usage : editeurs qui veulent rester dans Google Search mais qui refusent que leur contenu alimente les modeles IA concurrents (certains grands medias). Cas rare pour les PME.

Config 3 : Gemini oui, Google Search non

User-agent: Googlebot
Disallow: /

User-agent: Google-Extended
Allow: /

Consequences :

  • Ton site n’est pas indexe dans Google Search
  • Mais ton contenu peut quand meme servir a Gemini

Cas d’usage : absurde pour 99% des marques. On ne connait pas de cas reel ou cette config serait rationnelle.

Config 4 : tout bloquer

User-agent: Googlebot
Disallow: /

User-agent: Google-Extended
Disallow: /

Tu t’exclus totalement de Google. Rare, sauf pour sites premium payants, sites d’entreprises privees, ou positions editoriales fortes.

L’impact reel sur les AI Overviews

Officiellement, Google ne dit pas si Google-Extended influence directement les AI Overviews. Mais l’observation empirique suggere que non : les AI Overviews tirent leurs sources du meme index que Google Search. Donc tant que Googlebot est autorise, tu peux etre cite dans les AI Overviews, meme si Google-Extended est bloque.

Attention : cette observation peut changer avec les mises a jour de Google. Verifie regulierement.

Que se passe-t-il si tu ne fais rien

Par defaut (pas de directive explicite), les deux user-agents sont autorises. Tu beneficies de Google Search + Gemini + AI Overviews. C’est le cas pour la grande majorite des sites.

Donc : si tu n’as rien fait, tu es probablement en config 1 par defaut. Bonne nouvelle.

Le piege a eviter

Beaucoup de sites, avant la creation de Google-Extended (avant septembre 2023), avaient ajoute dans leur robots.txt :

User-agent: *
Disallow: /admin/
Disallow: /private/

Ces sites sont automatiquement autorises pour Google-Extended (via le wildcard *). Pas de changement necessaire.

Mais si quelqu’un a ajoute par la suite un blocage “anti-IA” generique comme :

User-agent: *
Disallow: /content/

Il bloque AUSSI Google-Extended sur /content/, ce qui peut etre involontaire. Verifie tes regles wildcards.

Comment verifier ta config actuelle

  1. Ouvre https://tondomaine.fr/robots.txt dans ton navigateur
  2. Cherche Google-Extended
  3. Si tu le trouves avec Allow: / ou Disallow: /, tu as une config explicite
  4. Si tu ne le trouves pas, tu es en config wildcard (par defaut : autorise)

Pour tester l’impact concret :

  • Pulsari te donne un audit gratuit qui inclut la visibilite Gemini
  • Google Search Console ne montre pas directement Google-Extended, mais observer tes logs serveurs te dit quand il crawle

Recommandations selon ton business

Site grand public / PME / e-commerce

Config 1 (tout autoriser). Aucune raison de bloquer, beaucoup a gagner en visibilite Gemini.

Site de presse ou medias

Config 1 ou config 2 selon la position editoriale. Les grands journaux americains (NYT, WSJ) ont bloque via Google-Extended en attente de negociations commerciales avec Google. A reflechir pour la presse francaise, mais solution plus pragmatique : autoriser et negocier les licences en parallele.

Formation / cours en ligne payants

Config 2 (autoriser Google Search, bloquer Google-Extended) fait sens pour eviter que ton contenu de cours paye soit reformule gratuitement par Gemini.

Cabinet d’expertise (droit, finance, medical)

Config 1. Tu as plus a gagner en visibilite qu’a perdre en “vol” de contenu (qui est de toute facon assez balisee legalement).

Les effets dans le temps

Attention : Google-Extended n’efface pas retroactivement le contenu deja indexe. Si tu bloques en 2026 un contenu crawle en 2023, il peut rester dans les modeles deja entraines jusqu’a leur prochaine version.

Les nouvelles versions de Gemini respectent la directive en arretant d’utiliser le contenu pour le futur entrainement, mais le passe reste.

En resume

Google-Extended est un outil important pour les editeurs qui veulent une granularite fine entre SEO classique et IA. Pour 90% des marques, laisser le site entierement ouvert (config 1) est la bonne decision. Les cas de blocage sont specifiques et doivent etre reflechis.

Pour aller plus loin : Google AI Overviews : comment optimiser, Gemini vs ChatGPT, audit Pulsari gratuit.


Articles similaires

#google-extended#bard#gemini training

Prends le pouls de ta visibilité IA

Teste si ta marque est citée par Claude et Gemini en 30 secondes. Gratuit, sans inscription.