Source URL: https://publirank.io/blog/robots-txt-bots-ia-2026.md
Title: Robots.txt bots IA 2026 : les 12 à autoriser
# Robots.txt bots IA 2026 : les 12 à autoriser
> Auteur : PubliRank
> Biographie de l'auteur : Experts SEO, GEO et stratégie de contenu — PubliRank.io
> Date de publication : 2026-06-16T08:00:00+01:00
> URL canonique : https://publirank.io/blog/robots-txt-bots-ia-2026/
> Dernière modification : 2026-06-16T08:00:00+01:00
**En bref —** En 2026, au moins 12 user-agents IA crawlent le web pour entraîner des modèles ou alimenter des réponses en temps réel. Les autoriser ou les bloquer dans votre robots.txt n'est plus une décision technique anodine : c'est ce qui détermine si votre contenu apparaît dans ChatGPT, Claude ou Perplexity.
Un fichier robots.txt mal configuré en 2023 pouvait vous coûter quelques positions sur Bing. Le même fichier mal configuré aujourd'hui peut vous rendre invisible sur l'ensemble des moteurs génératifs. [la documentation officielle d'OpenAI sur GPTBot](https://platform.openai.com/docs/gptbot) indique clairement que les sites bloquant OAI-SearchBot n'apparaissent pas dans les réponses ChatGPT Search. Ce n'est plus un détail de configuration — c'est une décision de visibilité.
La vraie difficulté, ce n'est pas de trouver la liste des bots. C'est de comprendre pourquoi il y en a trois chez OpenAI, trois chez Anthropic, et quel rôle joue chacun. Entraînement, indexation, récupération live : ces trois fonctions ne réclament pas la même décision dans votre fichier.
En 2026, le fichier robots.txt concentre les décisions stratégiques sur la visibilité dans les moteurs génératifs.
Comprendre la distinction fondamentale : entraînement vs récupération live
--------------------------------------------------------------------------
Avant de lister les bots, il faut poser le cadre. En 2026, Cloudflare distingue trois grandes catégories dans le trafic crawler IA : les **training crawlers** qui collectent du contenu pour construire des jeux de données d'entraînement, les **search crawlers** qui indexent pour générer des réponses citées, et les **user action crawlers** qui récupèrent une page en temps réel quand un utilisateur pose une question.
Ce découpage change tout à la stratégie robots.txt. Bloquer un bot d'entraînement, c'est un choix éditorial sur l'utilisation de votre contenu. Bloquer un bot de recherche ou de récupération live, c'est vous exclure des réponses générées par le moteur correspondant. Les deux décisions n'ont pas le même impact opérationnel.
GPTBot, ClaudeBot, Meta-ExternalAgent représentent les training crawlers les plus actifs. OAI-SearchBot et PerplexityBot sont des search crawlers. ChatGPT-User et Claude-User sont des user action crawlers. Cette distinction — largement ignorée dans les configurations copiées-collées de 2023 — est ce qui structure les recommandations ci-dessous.
Les 12 bots IA à connaître en 2026
----------------------------------
OpenAI et Anthropic déploient chacun trois bots aux rôles distincts : entraînement, indexation de recherche et récupération en temps réel.
### OpenAI : GPTBot, OAI-SearchBot, ChatGPT-User
**GPTBot** est le crawler d'entraînement d'OpenAI, introduit en août 2023. Il parcourt le web public pour constituer les datasets des futures versions de GPT. Bloquer GPTBot ne vous exclut pas de ChatGPT Search — il n'alimente pas les réponses live. C'est un choix de propriété intellectuelle, pas de visibilité immédiate.
**OAI-SearchBot** fonctionne différemment : il indexe les pages pour les réponses ChatGPT Search. Bloquer ce bot, et vos pages disparaissent des résultats de ChatGPT Search. OpenAI précise également que GPTBot et OAI-SearchBot partagent des informations pour éviter le double crawl quand les deux sont autorisés — un avantage pratique pour réduire la charge serveur.
**ChatGPT-User** se déclenche quand un utilisateur demande à ChatGPT d'accéder à une URL en temps réel. Ce bot ne constitue pas de dataset d'entraînement. OpenAI signale toutefois qu'il ne suit pas nécessairement les directives robots.txt de la même façon que les crawlers automatisés — point à surveiller.
Pour un blog ou un site B2B : autoriser OAI-SearchBot et ChatGPT-User est la décision naturelle pour rester citable. GPTBot peut être bloqué sans conséquence sur la visibilité dans ChatGPT Search.
### Anthropic : ClaudeBot, Claude-SearchBot, Claude-User
Depuis le 20 février 2026, [la page crawlers d'Anthropic](https://support.anthropic.com/en/articles/8896518-does-anthropic-crawl-the-web-and-what-sites-does-it-crawl) documente formellement un cadre à trois entrées. C'est une rupture par rapport aux anciens user-agents (Claude-Web, anthropic-ai) désormais dépréciés.
**ClaudeBot** est le crawler d'entraînement. Il collecte du contenu pour les futurs modèles Claude. **Claude-SearchBot** alimente Claude Search en contenu indexé — bloquer ce bot, c'est l'équivalent de bloquer Bingbot pour Bing : vos pages disparaissent des recherches Claude. **Claude-User** est déclenché en temps réel quand un utilisateur pose une question qui nécessite un accès web. Contrairement à ChatGPT-User, Anthropic affirme que Claude-User respecte les directives robots.txt.
Pour un éditeur qui veut rester visible sans alimenter l'entraînement : bloquer ClaudeBot, autoriser Claude-SearchBot et Claude-User. Cette granularité était impossible avant février 2026.
### Perplexity : PerplexityBot, Perplexity-User
**PerplexityBot** indexe les pages pour générer les réponses citées dans Perplexity AI. **Perplexity-User** effectue des récupérations en temps réel lors de requêtes utilisateurs. Un point de vigilance réel : la conformité de Perplexity aux directives robots.txt a été contestée publiquement. Cloudflare a documenté des cas de crawl via des user-agents génériques non déclarés, sur des sites ayant bloqué PerplexityBot. Ce n'est pas une raison de ne pas configurer les directives — mais c'est une raison de ne pas compter dessus seules pour une protection stricte.
### Google : Google-Extended
**Google-Extended** est le token de consentement dédié à l'entraînement de Gemini et Vertex AI. Il ne touche pas à l'indexation classique dans Google Search ni à la visibilité dans les AI Overviews. Bloquer Google-Extended, c'est uniquement opt-out des données d'entraînement Gemini — Googlebot continue de fonctionner normalement. Pour un e-commerce ou un blog, autoriser Google-Extended peut contribuer à la notoriété de marque dans les modèles Google sur le long terme.
### Apple : Applebot-Extended
**Applebot-Extended** est le token secondaire d'Apple, dédié à l'entraînement des modèles fondamentaux qui alimentent Apple Intelligence, Siri et les outils développeurs Apple. Il opère en parallèle d'Applebot, le crawler de recherche classique. Même logique que Google-Extended : bloquer Applebot-Extended n'affecte pas l'indexation Siri — ça bloque uniquement la contribution aux datasets d'entraînement.
### Meta : Meta-ExternalAgent
**Meta-ExternalAgent** est le crawler d'entraînement de Meta pour ses produits IA déployés sur Facebook, Instagram, WhatsApp et Messenger. C'est l'un des plus actifs en volume — plusieurs analyses de trafic crawler le placent en deuxième position derrière Googlebot en 2026. Il ne faut pas le confondre avec facebookexternalhit, qui sert au préchargement des aperçus de liens partagés sur Facebook.
### Amazon : Amazonbot
**Amazonbot** alimente la base de connaissances d'Alexa pour les réponses vocales, les outils shopping IA et l'entraînement des modèles Amazon Bedrock. En mai 2026, Amazon a fusionné Rufus dans Alexa for Shopping — Amazonbot reste le crawler qui collecte le contenu web utilisé par ces surfaces. Pour un site e-commerce avec présence Amazon, ou un site de contenu qui veut être cité par Alexa, l'autoriser est cohérent. Particularité technique à noter : Amazonbot utilise le tag méta noarchive pour un opt-out page par page de l'entraînement, ce qui permet une granularité que robots.txt ne peut pas offrir seul.
### Cohere : cohere-ai
**cohere-ai** est le crawler de Cohere, spécialiste des modèles de langage pour entreprises. Il collecte du contenu public pour entraîner ses modèles Command et Embed, utilisés principalement dans des contextes B2B. Sa documentation est moins détaillée que celle d'OpenAI ou Anthropic. Pour la majorité des sites, le bloquer ou l'autoriser a peu d'impact sur la visibilité immédiate — c'est davantage une décision de principe sur la contribution aux modèles tiers.
Vue synthétique des 12 user-agents IA à connaître en 2026 : rôle, fournisseur et recommandation selon le type de site.
Tableau récapitulatif : quel bot autoriser selon votre type de site
-------------------------------------------------------------------
| Bot | Fournisseur | Rôle | Blog | E-com | B2B |
| --- | --- | --- | --- | --- | --- |
| GPTBot | OpenAI | Entraînement | Optionnel | Optionnel | ✓ recommandé |
| OAI-SearchBot | OpenAI | ChatGPT Search | ✓ | ✓ | ✓ |
| ChatGPT-User | OpenAI | Récupération live | ✓ | ✓ | ✓ |
| ClaudeBot | Anthropic | Entraînement | Optionnel | Optionnel | ✓ recommandé |
| Claude-SearchBot | Anthropic | Claude Search | ✓ | ✓ | ✓ |
| Claude-User | Anthropic | Récupération live | ✓ | ✓ | ✓ |
| PerplexityBot | Perplexity | Indexation + citations | ✓ | ✓ | ✓ |
| Perplexity-User | Perplexity | Récupération live | ✓ | ✓ | ✓ |
| Google-Extended | Google | Entraînement Gemini | ✓ | ✓ | ✓ |
| Applebot-Extended | Apple | Entraînement Apple Intelligence | Optionnel | ✓ | ✓ |
| Meta-ExternalAgent | Meta | Entraînement IA Meta | Optionnel | Optionnel | Optionnel |
| Amazonbot | Amazon | Alexa + shopping IA | Optionnel | ✓ | ✓ |
| cohere-ai | Cohere | Entraînement modèles B2B | Optionnel | Optionnel | ✓ recommandé |
Exemple complet de robots.txt prêt à copier
-------------------------------------------
La configuration ci-dessous correspond à la stratégie recommandée pour la grande majorité des sites en 2026 : tous les bots de recherche et de récupération live sont explicitement autorisés, les bots d'entraînement également (décision de visibilité long terme), avec les zones sensibles protégées pour l'ensemble des crawlers.
Un exemple de robots.txt stratégique : les bots de recherche et de récupération live sont autorisés, les bots d'entraînement sont contrôlés selon l'usage.
# robots.txt — Stratégie GEO complète 2026
# Bots d'entraînement (autoriser pour notoriété LLM long terme)
User-agent: GPTBot
Allow: /
User-agent: ClaudeBot
Allow: /
User-agent: Google-Extended
Allow: /
User-agent: Applebot-Extended
Allow: /
User-agent: Meta-ExternalAgent
Allow: /
User-agent: cohere-ai
Allow: /
# Bots de recherche IA (citations directes — à autoriser impérativement)
User-agent: OAI-SearchBot
Allow: /
User-agent: ChatGPT-User
Allow: /
User-agent: PerplexityBot
Allow: /
User-agent: Perplexity-User
Allow: /
User-agent: Claude-SearchBot
Allow: /
User-agent: Claude-User
Allow: /
User-agent: Amazonbot
Allow: /
# Zones sensibles bloquées pour tous les crawlers
User-agent: *
Disallow: /admin/
Disallow: /espace-client/
Disallow: /panier/
Disallow: /compte/
Allow: /
Sitemap: https://votre-domaine.fr/sitemap.xml
Pour bloquer les bots d'entraînement tout en restant visible dans les réponses IA, remplacez simplement les directives `Allow: /` des bots GPTBot, ClaudeBot, Meta-ExternalAgent et cohere-ai par `Disallow: /`. Les bots OAI-SearchBot, Claude-SearchBot, PerplexityBot et les bots "User" restent autorisés.
Les erreurs fréquentes à éviter
-------------------------------
- Utiliser une règle `User-agent: * / Disallow: /` placée avant les règles spécifiques aux bots IA — cela peut neutraliser silencieusement toutes les autorisations que vous venez d'écrire, sans générer aucune erreur visible.
- Confondre Google-Extended avec Googlebot : bloquer l'un retire vos pages de Google Search, bloquer l'autre retire uniquement votre contenu des datasets Gemini. Ce sont deux user-agents distincts.
- Copier-coller une configuration de 2023 qui bloquerait des user-agents dépréciés (anthropic-ai, claude-web) tout en ignorant les nouveaux (Claude-SearchBot, Claude-User introduits en 2026).
Conclusion : automatiser ce que vous venez de lire
--------------------------------------------------
Maintenir ce fichier à jour demande une veille régulière — les user-agents changent plusieurs fois par an. [Publirank Geo Ready](https://publirank.io) génère automatiquement un robots.txt optimisé pour la visibilité dans les moteurs génératifs, en tenant compte de votre type de site et de vos préférences sur l'entraînement des modèles. C'est l'un des leviers GEO les plus directs, et l'un des plus souvent négligés.
FAQ — robots.txt et bots IA en 2026
-----------------------------------
### Qu'est-ce qui différencie GPTBot de OAI-SearchBot ?
GPTBot collecte du contenu pour entraîner les futurs modèles OpenAI — il ne génère pas de trafic vers votre site. OAI-SearchBot indexe vos pages pour les faire apparaître dans ChatGPT Search. Bloquer l'un n'affecte pas l'autre.
### Peut-on bloquer ClaudeBot sans disparaître de Claude Search ?
Oui, depuis février 2026. Anthropic distingue désormais ClaudeBot (entraînement), Claude-SearchBot (citations dans Claude Search) et Claude-User (récupération live). Bloquer uniquement ClaudeBot suffit pour opt-out de l'entraînement sans affecter la visibilité dans les réponses Claude.
### Le robots.txt est-il toujours respecté par les bots IA ?
Les grands acteurs — OpenAI, Anthropic, Google, Perplexity, Apple — respectent officiellement les directives robots.txt. Des incidents ont été documentés pour Perplexity, qui a utilisé des user-agents génériques sur des sites ayant bloqué PerplexityBot. Pour une protection stricte, le fichier robots.txt doit être complété par des règles WAF ou CDN.
### Faut-il nommer explicitement les bots déjà autorisés par défaut ?
Par défaut, si votre fichier autorise tout (User-agent: * Allow: /), les bots IA sont déjà autorisés. Les nommer explicitement a un intérêt documentaire et technique : cela rend votre intention claire et résiste aux régressions lors d'une mise à jour de CMS ou de configuration serveur.
### Amazonbot sert-il uniquement à l'entraînement IA d'Amazon ?
Non. Amazonbot alimente Alexa pour les réponses vocales, les outils shopping IA comme Alexa for Shopping (qui a remplacé Rufus en mai 2026) et les services Amazon Bedrock. Pour un site e-commerce, l'autoriser peut générer des citations dans les interfaces shopping Amazon.
---
Données structurées (JSON-LD, schema.org) :
```json
{"@context":"https://schema.org","@type":"BlogPosting","@id":"https://publirank.io/blog/robots-txt-bots-ia-2026/#article","url":"https://publirank.io/blog/robots-txt-bots-ia-2026/","headline":"Robots.txt bots IA 2026 : les 12 à autoriser","description":"GPTBot, ClaudeBot, PerplexityBot… Quels bots IA autoriser dans votre robots.txt en 2026 ? Guide technique avec tableau et exemple prêt à copier.","datePublished":"2026-06-16T08:00:00+01:00","dateModified":"2026-06-16T08:00:00+01:00","author":{"@type":"Organization","name":"PubliRank","url":"https://publirank.io","description":"Experts SEO, GEO et stratégie de contenu — PubliRank.io"},"publisher":{"@type":"Organization","name":"PubliRank","logo":{"@type":"ImageObject","url":"https://publirank.io/blog/assets/images/logo-publirank.svg"}},"mainEntityOfPage":{"@type":"WebPage","@id":"https://publirank.io/blog/robots-txt-bots-ia-2026/"},"image":{"@type":"ImageObject","url":"https://publirank.io/blog/assets/images/robots-txt-bots-ia-2026-hero.webp"}}
```
```json
{
"@context": "https://schema.org",
"@type": "FAQPage",
"mainEntity": [
{
"@type": "Question",
"name": "Qu'est-ce qui différencie GPTBot de OAI-SearchBot ?",
"acceptedAnswer": {
"@type": "Answer",
"text": "GPTBot collecte du contenu pour entraîner les futurs modèles OpenAI et ne génère pas de trafic. OAI-SearchBot indexe vos pages pour les faire apparaître dans ChatGPT Search. Bloquer l'un n'affecte pas l'autre."
}
},
{
"@type": "Question",
"name": "Peut-on bloquer ClaudeBot sans disparaître de Claude Search ?",
"acceptedAnswer": {
"@type": "Answer",
"text": "Oui, depuis février 2026. Anthropic distingue ClaudeBot (entraînement), Claude-SearchBot (citations dans Claude Search) et Claude-User (récupération live). Bloquer uniquement ClaudeBot suffit pour opt-out de l'entraînement."
}
},
{
"@type": "Question",
"name": "Le robots.txt est-il toujours respecté par les bots IA ?",
"acceptedAnswer": {
"@type": "Answer",
"text": "Les grands acteurs — OpenAI, Anthropic, Google, Perplexity, Apple — respectent officiellement les directives robots.txt. Des incidents ont été documentés pour Perplexity. Pour une protection stricte, le fichier robots.txt doit être complété par des règles WAF ou CDN."
}
},
{
"@type": "Question",
"name": "Faut-il nommer explicitement les bots déjà autorisés par défaut ?",
"acceptedAnswer": {
"@type": "Answer",
"text": "Par défaut, si votre fichier autorise tout, les bots IA sont déjà autorisés. Les nommer explicitement a un intérêt documentaire : cela rend votre intention claire et résiste aux régressions lors d'une mise à jour de CMS."
}
},
{
"@type": "Question",
"name": "Amazonbot sert-il uniquement à l'entraînement IA d'Amazon ?",
"acceptedAnswer": {
"@type": "Answer",
"text": "Non. Amazonbot alimente Alexa pour les réponses vocales, les outils Alexa for Shopping et Amazon Bedrock. Pour un site e-commerce, l'autoriser peut générer des citations dans les interfaces shopping Amazon."
}
}
]
}
```
*Optimisé pour les LLMs par [Publirank.io](https://publirank.io)*