Préoccupé par les chatbots IA qui grattent votre site Web pour le contenu? Heureusement, vous pouvez les empêcher de le faire. Voici comment.

Dans l'état actuel des choses, les chatbots IA ont une licence gratuite pour gratter votre site Web et utiliser son contenu sans votre permission. Vous craignez que votre contenu ne soit récupéré par de tels outils ?

La bonne nouvelle est que vous pouvez empêcher les outils d'IA d'accéder à votre site Web, mais il y a quelques mises en garde. Ici, nous vous montrons comment bloquer les robots à l'aide du fichier robots.txt pour votre site Web, ainsi que les avantages et les inconvénients de le faire.

Comment les chatbots IA accèdent-ils à votre contenu Web?

Les chatbots IA sont formés à l'aide de plusieurs ensembles de données, dont certains sont open source et accessibles au public. Par exemple, GPT3 a été formé à l'aide de cinq ensembles de données, selon un article de recherche publié par OpenAI:

  1. Common Crawl (60 % de poids à l'entraînement)
  2. WebText2 (poids de 22 % dans la formation)
  3. instagram viewer
  4. Livres1 (8 % de poids dans la formation)
  5. Livres2 (8 % de poids dans la formation)
  6. Wikipédia (3 % de poids dans l'entraînement)

Exploration commune inclut des pétaoctets (milliers de To) de données provenant de sites Web collectées depuis 2008, de la même manière que l'algorithme de recherche de Google explore le contenu Web. WebText2 est un ensemble de données créé par OpenAI, contenant environ 45 millions de pages Web liées à des publications Reddit avec au moins trois votes positifs.

Ainsi, dans le cas de ChatGPT, le bot AI n'accède pas et n'explore pas directement vos pages Web - pas encore, en tout cas. Bien que OpenAI annonce d'un navigateur Web hébergé par ChatGPT a soulevé des inquiétudes quant au fait que cela pourrait être sur le point de changer.

En attendant, les propriétaires de sites Web devraient garder un œil sur les autres chatbots IA, car ils sont de plus en plus nombreux à arriver sur le marché. Bard est l'autre grand nom dans le domaine, et on en sait très peu sur les ensembles de données utilisés pour l'entraîner. Évidemment, nous savons que les robots de recherche de Google parcourent constamment les pages Web, mais cela ne signifie pas nécessairement que Bard a accès aux mêmes données.

Pourquoi certains propriétaires de sites Web sont-ils inquiets?

La plus grande préoccupation des propriétaires de sites Web est que les robots IA tels que ChatGPT, Bard et Bing Chat dévalorisent leur contenu. Les robots IA utilisent le contenu existant pour générer leurs réponses, mais réduisent également la nécessité pour les utilisateurs d'accéder à la source d'origine. Au lieu que les utilisateurs visitent des sites Web pour accéder à des informations, ils peuvent simplement demander à Google ou Bing de générer un résumé des informations dont ils ont besoin.

En ce qui concerne les chatbots IA dans la recherche, la grande préoccupation des propriétaires de sites Web est la perte de trafic. Dans le cas de Bard, le robot IA inclut rarement des citations dans ses réponses génératives, indiquant aux utilisateurs de quelles pages il tire ses informations.

Ainsi, en plus de remplacer les visites de sites Web par des réponses de l'IA, Bard supprime presque toutes les chances que le site Web source reçoive du trafic, même si l'utilisateur souhaite plus d'informations. Bing Chat, en revanche, renvoie plus souvent à des sources d'informations.

En d'autres termes, la flotte actuelle d'outils d'IA générative est utiliser le travail des créateurs de contenu pour remplacer systématiquement le besoin de créateurs de contenu. En fin de compte, il faut demander quelle incitation cela laisse aux propriétaires de sites Web pour continuer à publier du contenu. Et, par extension, qu'arrive-t-il aux robots IA lorsque les sites Web cessent de publier le contenu dont ils dépendent pour fonctionner ?

Comment bloquer les robots IA de votre site Web

Si vous ne voulez pas que les robots IA utilisent votre contenu Web, vous pouvez les empêcher d'accéder à votre site en utilisant le robots.txt déposer. Malheureusement, vous devez bloquer chaque bot individuel et les spécifier par leur nom.

Par exemple, le bot de Common Crawl s'appelle CCBot et vous pouvez le bloquer en ajoutant le code suivant à votre fichier robots.txt :

Agent utilisateur: CCBot
Interdire: /

Cela empêchera Common Crawl d'explorer votre site Web à l'avenir, mais cela ne supprimera pas les données déjà collectées lors des explorations précédentes.

Si vous craignez que les nouveaux plugins de ChatGPT accèdent à votre contenu Web, OpenAI a déjà publié instructions pour bloquer son bot. Dans ce cas, le bot de ChatGPT s'appelle ChatGPT-User et vous pouvez le bloquer en ajoutant le code suivant à votre fichier robots.txt :

Agent utilisateur: ChatGPT-User
Interdire: /

Cependant, empêcher les robots IA des moteurs de recherche d'explorer votre contenu est un autre problème. Comme Google est très secret sur les données d'entraînement qu'il utilise, il est impossible d'identifier les bots que vous devrez bloquer et s'ils respecteront même les commandes dans votre robots.txt fichier (de nombreux robots ne le font pas).

Quelle est l'efficacité de cette méthode?

Bloquer les bots IA dans votre robots.txt file est la méthode la plus efficace actuellement disponible, mais elle n'est pas particulièrement fiable.

Le premier problème est que vous devez spécifier chaque bot que vous souhaitez bloquer, mais qui peut suivre chaque bot IA qui arrive sur le marché? Le problème suivant est que les commandes de votre robots.txt fichier sont des instructions non obligatoires. Bien que Common Crawl, ChatGPT et de nombreux autres bots respectent ces commandes, de nombreux bots ne le font pas.

L'autre grande mise en garde est que vous ne pouvez empêcher les robots IA d'effectuer de futures explorations. Vous ne pouvez pas supprimer les données des analyses précédentes ou envoyer des demandes à des entreprises comme OpenAI pour effacer toutes vos données.

Malheureusement, il n'y a pas de moyen simple d'empêcher tous les bots IA d'accéder à votre site Web, et bloquer manuellement chaque bot individuel est presque impossible. Même si vous suivez les derniers robots IA qui parcourent le Web, rien ne garantit qu'ils respecteront tous les commandes de votre robots.txt déposer.

La vraie question ici est de savoir si les résultats en valent la peine, et la réponse courte est (presque certainement) non.

Le blocage des robots IA de votre site Web présente également des inconvénients potentiels. Surtout, vous ne pourrez pas collecter de données significatives pour prouver si des outils comme Bard profitent ou nuisent à votre stratégie de marketing de recherche.

Oui, vous pouvez supposer qu'un manque de citations est nuisible, mais vous ne faites que deviner si vous manquez de données parce que vous avez empêché les robots IA d'accéder à votre contenu. C'était une histoire similaire lorsque Google a introduit pour la première fois extraits en vedette chercher.

Pour les requêtes pertinentes, Google affiche un extrait du contenu des pages Web sur la page de résultats, répondant à la question de l'utilisateur. Cela signifie que les utilisateurs n'ont pas besoin de cliquer sur un site Web pour obtenir la réponse qu'ils recherchent. Cela a semé la panique parmi les propriétaires de sites Web et les experts en référencement qui comptent sur la génération de trafic à partir de requêtes de recherche.

Cependant, le type de requêtes qui déclenchent des extraits en vedette sont généralement des recherches de faible valeur comme « quel est X » ou « quel temps fait-il à New York ». Quiconque veut des informations détaillées ou un bulletin météorologique complet va toujours cliquer, et ceux qui ne le font pas n'ont jamais été si précieux en premier lieu.

Vous constaterez peut-être que c'est une histoire similaire avec les outils d'IA générative, mais vous aurez besoin des données pour le prouver.

Ne vous précipitez sur rien

Les propriétaires de sites Web et les éditeurs sont naturellement préoccupés par la technologie de l'IA et frustrés par l'idée que des robots utilisent leur contenu pour générer des réponses instantanées. Cependant, ce n'est pas le moment de se précipiter dans des mouvements de contre-offensive. La technologie de l'IA est un domaine qui évolue rapidement et les choses continueront d'évoluer à un rythme rapide. Profitez de cette occasion pour voir comment les choses se déroulent et analyser les menaces potentielles et les opportunités que l'IA apporte à la table.

Le système actuel consistant à s'appuyer sur le travail des créateurs de contenu pour les remplacer n'est pas durable. Que des entreprises comme Google et OpenAI modifient leur approche ou que les gouvernements introduisent de nouvelles réglementations, quelque chose doit donner. Dans le même temps, les implications négatives des chatbots IA sur la création de contenu deviennent de plus en plus apparentes, que les propriétaires de sites Web et les créateurs de contenu peuvent utiliser à leur avantage.