ChatGPT est le chatbot IA révolutionnaire d'OpenAI qui surprend Internet. Contre toutes les tendances technologiques établies, il n'a pas fallu longtemps pour que ChatGPT trouve sa place dans presque tous les domaines de notre vie numérique.
Très peu d'innovations technologiques ont suscité autant d'intérêt que ChatGPT en si peu de temps. Il semble ne jamais manquer d'astuces sympas - chaque jour, nous apprenons de nouvelles choses passionnantes que nous ne savions pas qu'il pouvait faire.
Mais comment ChatGPT est-il capable de faire ce qu'il peut faire? Comment fonctionne ChatGPT ?
Comment ChatGPT a-t-il été créé ?
Pour comprendre comment fonctionne ChatGPT, il vaut la peine de regarder ses origines et le cerveau derrière le chatbot AI de pointe.
Tout d'abord, aussi magique que ChatGPT puisse paraître, il a été construit par le génie humain, comme toutes les technologies logicielles valables. OpenAI a créé ChatGPT, la société révolutionnaire de recherche et développement sur l'IA derrière d'autres outils d'IA puissants comme DALL-E, InstructGPT et Codex. Nous avons déjà répondu
quelques questions que vous pourriez avoir sur ChatGPT, alors jetez un oeil.Alors que ChatGPT est devenu viral vers la fin de 2022, la plupart des technologies sous-jacentes qui alimentent ChatGPT existent depuis bien plus longtemps, mais avec beaucoup moins de publicité. Le modèle ChatGPT est construit sur GPT-3 (ou, plus précisément, GPT-3.5). GPT signifie "Generative Pre-trained Transformer 3".
GPT-3 est la troisième itération de la gamme GPT de modèles d'IA et a été précédée par GPT-2 et GPT. Les itérations antérieures des modèles GPT sont tout aussi utiles, mais GPT-3 et l'itération finement réglée GPT-3.5 sont beaucoup plus puissantes. La plupart de ce que ChatGPT peut faire est dû à la technologie GPT-3 sous-jacente.
Qu'est-ce que GPT ?
Nous avons donc établi que ChatGPT est construit sur la troisième génération du modèle GPT. Mais qu'est-ce que GPT de toute façon ?
Commençons par déballer les acronymes d'une manière facile à digérer et non technique.
- Le "génératif" dans GPT représente sa capacité à générer du texte en langage humain naturel.
- Le "pré-formé" représente le fait que le modèle a déjà été formé sur un ensemble de données fini. Un peu comme si vous lisiez un livre ou peut-être plusieurs livres avant d'être invité à répondre à des questions à ce sujet.
- Le "Transformer" représente l'architecture d'apprentissage automatique sous-jacente qui alimente GPT.
Maintenant, en mettant tout cela ensemble, Generative Pre-trained Transformer (GPT) est un modèle de langage qui a été formé à l'aide de données provenant d'Internet dans le but de générer un texte en langage humain lorsqu'il est présenté avec un rapide. Donc, nous avons dit à plusieurs reprises que GPT avait été formé, mais comment a-t-il été formé ?
Comment ChatGPT a-t-il été formé ?
ChatGPT lui-même n'a pas été formé à partir de zéro. Au lieu de cela, il s'agit d'une version affinée de GPT-3.5, qui est elle-même une version affinée de GPT-3. Le modèle GPT-3 a été formé avec une quantité massive de données collectées sur Internet. Pensez à Wikipédia, Twitter et Reddit - il a été alimenté par des données et du texte humain extraits de tous les coins d'Internet.
Si vous vous demandez comment fonctionne la formation GPT, GPT-3 a été formé en utilisant une combinaison d'apprentissage supervisé et d'apprentissage par renforcement par rétroaction humaine (RLHF). L'apprentissage supervisé est l'étape où le modèle est formé sur un grand ensemble de données de texte extrait d'Internet. L'étape d'apprentissage par renforcement est celle où il est formé pour produire de meilleures réponses qui correspondent à ce que les humains accepteraient comme étant à la fois humains et corrects.
Formation avec apprentissage supervisé
Pour mieux comprendre comment l'apprentissage supervisé et par renforcement s'applique à ChatGPT, imaginez un scénario dans lequel un enseignant apprend à un élève à rédiger une dissertation. L'apprentissage supervisé reviendrait à ce que l'enseignant donne à l'élève des centaines d'essais à lire. Le but ici est que l'étudiant apprenne comment un essai doit être écrit en s'habituant au ton, au vocabulaire et à la structure de centaines d'essais.
Cependant, il y aura du bon et du mauvais parmi ces centaines d'essais. Étant donné que l'étudiant a été formé à la fois sur les bonnes et les mauvaises copies, il peut parfois arriver que l'étudiant rédige une mauvaise dissertation parce qu'il a également reçu de mauvaises dissertations à un moment donné. Cela signifie que lorsqu'on lui demande de rédiger une dissertation, l'élève peut rédiger une copie qui n'est pas acceptable ou assez bonne pour l'enseignant. C'est là qu'intervient l'apprentissage par renforcement.
Formation avec apprentissage par renforcement
Une fois que l'enseignant a établi que l'élève comprend les règles générales de la rédaction d'essais en lisant des centaines d'essais, l'enseignant donne alors à l'élève des devoirs fréquents d'écriture d'essais. Par la suite, l'enseignant fournirait des commentaires sur les devoirs de rédaction de dissertation, en disant aux élèves ce qu'ils ont bien fait et ce qu'ils pourraient améliorer. L'étudiant utilise les commentaires pour guider les devoirs d'écriture de dissertation ultérieurs, aidant l'étudiant à s'améliorer au fil du temps.
Ceci est similaire à l'étape d'apprentissage par renforcement de la formation du modèle GPT. Après avoir reçu une énorme quantité de texte récupéré sur Internet, le modèle peut répondre aux questions. Cependant, sa précision ne sera pas suffisante. Les formateurs humains posent une question au modèle et fournissent des commentaires sur la réponse la plus appropriée pour chaque question.
Le modèle utilise la rétroaction pour améliorer sa capacité à répondre aux questions avec plus de précision et plus comme la façon dont un humain répondrait. C'est ainsi que ChatGPT peut générer des réponses à consonance humaine qui sont à la fois cohérentes, engageantes et généralement précises.
Comment ChatGPT est-il capable de répondre aux questions ?
Donc, vous visitez le site Web ChatGPT et vous vous connectez. Vous invitez ChatGPT: "écrivez une chanson de rap dans le style de Snoop Dogg". Il répond avec des paroles à une chanson de rap qui ressemble étonnamment à ce que Snoop Dogg écrirait. Comment est-ce possible?
Eh bien, la "magie" derrière ChatGPT est parfaitement liée à sa formation.
Après avoir parcouru chaque centimètre de votre manuel Physique 101, il y a de fortes chances que vous puissiez répondre à toutes les questions qui vous seront posées. Pourquoi? Parce que vous l'avez lu et que vous l'avez appris. C'est la même chose avec ChatGPT: il apprend. Et comme l'a montré la civilisation humaine, avec une formation suffisante, il est possible de résoudre presque tous les problèmes.
Bien que vous puissiez probablement gérer des centaines de livres au cours de votre vie, ChatGPT ou GPT a déjà consommé une grande partie d'Internet. C'est une énorme mine d'informations. Là-dedans, quelque part, se trouvent probablement les paroles des nombreuses chansons de Snoop Dogg. Donc, bien sûr, ChatGPT doit l'avoir consommé (rappelez-vous, il est pré-formé) et a reconnu des modèles dans les paroles de Snoop Dogg. Il utiliserait alors une "connaissance" de ce modèle pour "prédire" les paroles d'une chanson semblable à ce que Snoop Dogg écrirait.
L'accent est mis ici sur "prévoir". ChatGPT ne répond pas aux questions de la même manière que nous le faisons en tant qu'humains. Par exemple, face à une question comme "Quelle est la capitale du Portugal ?" vous pourriez dire Lisbonne et le dire pour un "fait". Cependant, ChatGPT ne répond pas aux questions avec une certitude à 100 %. Au lieu de cela, il essaie de prédire la bonne réponse compte tenu des données qu'il a consommées dans son ensemble de données d'apprentissage.
L'approche de ChatGPT pour répondre aux questions
Pour mieux comprendre le concept de prédiction des réponses, imaginez ChatGPT comme un détective chargé de résoudre un meurtre. Le détective est présenté avec des preuves, mais ils ne savent pas qui a commis le meurtre et comment cela s'est passé. Cependant, avec suffisamment de preuves, le détective peut "prédire" avec une grande précision qui est responsable du meurtre et comment le crime a été commis.
Après avoir consommé des données sur Internet, ChatGPT supprime les données d'origine et stocke les connexions neuronales ou les modèles qu'il a appris à partir des données. Ces connexions ou modèles sont comme des éléments de preuve que ChatGPT analyse lorsqu'il tente de répondre à une invite.
Donc, en théorie, ChatGPT est comme un très bon détective. Il ne sait pas avec certitude quels devraient être les faits d'une réponse, mais il essaie, avec une impressionnante précision, pour prédire une séquence logique de texte en langage humain qui répondrait le mieux à la question. C'est ainsi que vous obtenez des réponses à vos questions.
Et c'est aussi pourquoi certaines de ces réponses semblent très convaincantes mais sont terriblement fausses.
ChatGPT: répond comme un humain, pense comme une machine
Les détails techniques sous-jacents de ChatGPT sont complexes. Cependant, d'un point de vue rudimentaire, il fonctionne en apprenant et en reproduisant ce qu'il a appris lorsqu'il y est invité, tout comme nous le faisons en tant qu'humains.
Au fur et à mesure que ChatGPT évolue grâce à la recherche, son fonctionnement peut changer. Cependant, ses principes de fonctionnement fondamentaux resteront les mêmes pendant un certain temps, du moins jusqu'à l'arrivée d'une nouvelle technologie perturbatrice.