Le fichier robots.txt : fonctionnement et importance
Le fichier robots.txt est un fichier texte placé à la racine de votre site (https://exemple.fr/robots.txt) qui contient des directives pour les robots d'exploration. Il utilise le protocole d'exclusion des robots (REP). Les directives principales sont User-agent (le robot concerné), Disallow (les URLs à ne pas explorer) et Allow (les URLs à explorer même si un Disallow plus large s'applique). La directive Sitemap permet de déclarer l'URL de votre sitemap XML. Googlebot, Bingbot et la plupart des robots respectent ce protocole.
Erreurs courantes dans le fichier robots.txt
Les erreurs les plus fréquentes : bloquer l'accès à tout le site (Disallow: /) lors du développement et oublier de retirer la règle en production, bloquer les fichiers CSS et JavaScript (ce qui empêche Google de rendre correctement la page), confondre robots.txt (crawl) et noindex (indexation), utiliser des expressions régulières non supportées (robots.txt n'utilise que des correspondances de préfixe simples et les wildcards * et $). Notre vérificateur détecte ces erreurs courantes.
Robots.txt et les bots d'IA : GPTBot, CCBot et autres
Depuis 2023, plusieurs robots d'IA utilisent le protocole robots.txt pour indiquer leur présence : GPTBot (OpenAI pour ChatGPT), CCBot (Common Crawl, utilisé pour l'entraînement de modèles d'IA), Bytespider (TikTok), Google-Extended (Google Bard/Gemini). Si vous ne souhaitez pas que votre contenu soit utilisé pour entraîner des modèles d'IA, vous pouvez ajouter des règles spécifiques pour ces agents. Notre générateur de robots.txt inclut ces nouveaux robots.