GPTBot n'est probablement pas ce que vous pensez.
Points clés à retenir
- GPTBot d'OpenAI est un robot d'exploration Web conçu pour collecter des données à partir de sites Web publics, qui sont ensuite utilisées pour former et améliorer des modèles d'IA tels que GPT-4 et ChatGPT.
- Certains des plus grands sites Web sur Internet bloquent GPTBot car il accède et utilise du contenu protégé par le droit d'auteur sans autorisation ni compensation pour les créateurs.
- Bien que les sites Web puissent utiliser des outils tels que robots.txt pour tenter de bloquer GPTBot, rien ne garantit qu'OpenAI se conformera, leur donnant le contrôle de l'accès aux données protégées par le droit d'auteur.
En août 2023, OpenAI, la centrale d'IA à qui l'on doit le développement de ChatGPT, a annoncé GPTBot, un robot d'exploration Web conçu pour parcourir le Web et collecter des données.
Peu de temps après cette annonce, certains des plus grands sites Web sur Internet ont bloqué l’accès du robot à leur site Web. Mais pourquoi? Qu'est-ce que le GPTBot d'OpenAI? Pourquoi les grands sites Internet en ont-ils peur, et pourquoi tentent-ils de le bloquer ?
Qu'est-ce que le GPTBot d'OpenAI?
GPTBot est un robot d'exploration Web créé par OpenAI pour rechercher sur Internet et collecter des informations pour les objectifs de développement de l'IA d'OpenAI. Il est programmé pour explorer les sites Web publics et renvoyer les données aux serveurs d'OpenAI. OpenAI utilise ensuite ces données pour entraîner et améliorer ses modèles d'IA, dans le but de construire des systèmes d'intelligence artificielle de plus en plus avancés. Pour créer des modèles d'IA sophistiqués comme GPT-4 ou ses produits enfants comme ChatGPT, les robots d'exploration Web sont presque indispensables.
La formation d'un modèle d'IA nécessite une énorme quantité de données, et l'un des moyens les plus efficaces de collecter ces données consiste à déployer des outils tels que des robots d'exploration Web. Les robots d'exploration peuvent parcourir systématiquement le Web, suivre des liens pour indexer de grands volumes de pages Web et extraire des données clés telles que du texte, des images et des métadonnées qui correspondent à un modèle prédéfini.
Ces données peuvent ensuite être structurées et introduites dans des modèles d’IA pour entraîner leurs capacités de traitement du langage naturel ou de génération d’images ou les entraîner à d’autres tâches d’IA. En d’autres termes, les robots d’exploration Web collectent les données qui permettent à des outils comme ChatGPT ou DALL-E de faire ce qu’ils font.
Les robots d'exploration Web ne sont pas un concept nouveau. Ils sont probablement des millions à parcourir les milliards de sites Web disponibles sur Internet aujourd’hui. Et ils existent depuis au moins le début des années 90. GPTBot n'est que l'un de ces robots appartenant à OpenAI. Alors, quelle est la cause de la controverse autour de ce robot d’exploration de sites Web en particulier ?
Pourquoi les sites Big Tech bloquent-ils GPTBot?
Selon Interne du milieu des affaires, certains des plus grands sites Web sur Internet bloquent activement le robot d'exploration d'OpenAI sur leur site Web. Alors, si l’objectif ultime de GPTBot est de faire progresser le développement de l’IA, pourquoi certains des plus grands sites Internet, dont certains ont bénéficié d’une manière ou d’une autre de l’IA, s’y opposent-ils ?
Eh bien, voici le problème. Depuis la résurgence des technologies d’IA générative en 2022, de nombreux débats ont eu lieu sur le droit des entreprises d’IA à utiliser, presque sans limites, des données provenant d'Internet, dont une partie importante est légalement protégée par droits d'auteur. Aucune loi claire ne régit la manière dont ces entreprises collectent et utilisent les données à leur propre profit.
Donc, fondamentalement, les robots d'exploration comme GPTBot explorent le Web, récupèrent le travail créatif des gens sous forme de texte, d'images ou d'autres formes de contenu. médias, et l'utiliser à des fins commerciales sans obtenir aucune autorisation, licence ou fournir une compensation à l'original créateurs.
Nous vivons à l’ouest sauvage, et les sociétés d’IA s’emparent de tout ce qui leur tombe sous la main. Les grands sites Web comme Quora, CNN, le New York Times, Business Insider et Amazon ne sont pas très heureux que leur le contenu protégé par le droit d'auteur est récolté par ces robots, afin qu'OpenAI puisse en tirer un avantage financier à son niveau. frais.
C'est pourquoi ces sites déploient « robots.txt », une méthode vieille de plusieurs décennies pour bloquer les robots d'exploration. Selon OpenAI, GPTBot obéira aux instructions pour explorer ou éviter d'explorer les sites Web en fonction des règles intégrées dans robots.txt, un petit fichier texte qui indique aux robots d'exploration comment se comporter sur un site. Si vous possédez votre propre site et que vous aimeriez empêcher GPTBot de récupérer vos données, voici comment vous pouvez empêcher les robots d'exploration d'OpenAI de gratter votre site Web.
Les sites Web peuvent-ils vraiment arrêter GPTBot?
Alors que les robots d'exploration comme GPTBot sont indispensables pour collecter les quantités massives de données nécessaires pour former des systèmes d'IA avancés, il existe des préoccupations légitimes concernant le droit d'auteur et l'utilisation équitable qui ne peuvent être ignoré.
Bien sûr, il existe des outils simples comme robots.txt qui peuvent être utilisés pour se prémunir contre cela, mais le fait que GPTBot obéisse aux instructions de ce fichier est entièrement à la discrétion d'OpenAI. Il n’y a aucune garantie qu’ils le feront, et il n’existe aucun moyen immédiat et infaillible de savoir s’ils l’ont fait. Dans la lutte pour garder GPTBot à l’écart des données protégées par le droit d’auteur, OpenAI détient les atouts, du moins pour le moment.