Il y a plus de 70 ans, lorsque l'intelligence artificielle a été conceptualisée, Alan Turing a publié un article décrivant comment l'identifier. Il a ensuite été connu sous le nom de test de Turing et a été utilisé pendant des décennies pour faire la distinction entre un humain et une IA.
Cependant, avec l'introduction de chatbots IA avancés comme ChatGPT et Google Bard, il devient plus difficile de savoir si vous parlez à une IA. Cela soulève la question; le test de Turing est-il obsolète? Et si c'est le cas, quelles sont les alternatives ?
Le test de Turing est-il obsolète?
Pour déterminer si le test de Turing est obsolète, vous devez d'abord comprendre comment ça marche. Pour qu'une IA réussisse le test de Turing, elle doit convaincre un interrogateur humain qu'il s'agit d'un humain. Mais il y a un hic: l'IA est évaluée aux côtés d'un humain, et elle doit répondre en utilisant du texte.
Pensez-y comme ceci; si vous êtes l'interrogateur et que vous posez des questions à deux participants en ligne en utilisant du texte, mais que l'un d'eux est un modèle d'IA, les distingueriez-vous après cinq minutes? Gardez à l'esprit que l'objectif du test de Turing n'est pas d'identifier le modèle d'IA sur la base des bonnes réponses mais d'évaluer si l'IA peut penser ou se comporter comme un humain.
Le problème avec l'approche du test de Turing consistant à identifier uniquement les réponses de type humain est qu'elle ne prend pas en compte d'autres facteurs. Par exemple, l'intelligence du modèle d'IA ou la connaissance de l'interrogateur. De plus, le test de Turing est limité au texte uniquement, et il devient de plus en plus difficile d'identifier une IA qui génère une voix humaine ou vidéos deepfake qui imitent le comportement humain.
Cependant, les modèles d'IA actuels tels que ChatGPT-4 et Google Bard n'ont pas encore atteint un point où ils peuvent régulièrement passer le test de Turing. En fait, si vous êtes familier avec l'IA, vous pouvez repérer le texte généré par l'IA.
Les 5 meilleures alternatives de test de Turing
C'est possible que futurs modèles d'IA comme ChatGPT-5 pourrait réussir le test de Turing. Si cela se produit, nous aurions besoin de différents tests combinés au test de Turing pour déterminer si nous parlons à une IA ou à un humain. Voici les meilleures alternatives de test de Turing :
1. Le test de Marcus
Gary Marcus, scientifique cognitif renommé et chercheur en IA, a proposé une alternative au test de Turing qui a été publié dans le New yorkais pour identifier la capacité cognitive d'une IA. Le test est simple: vous jugez un modèle d'IA en fonction de sa capacité à regarder et à comprendre des vidéos et des émissions de télévision YouTube sans sous-titres ni texte. Pour que l'IA réussisse le test de Marcus, elle doit comprendre le sarcasme, l'humour, l'ironie et le scénario en regardant les vidéos et l'expliquer comme un humain.
À l'heure actuelle, GPT-4 peut décrire des images, mais jusqu'à présent, il n'existe actuellement aucun modèle d'IA capable de comprendre les vidéos comme un humain. Véhicules autonomes se rapprochent, mais ils ne sont pas complètement autonomes et nécessitent des capteurs car ils ne peuvent pas tout comprendre dans leur environnement.
2. Le test de Turing visuel
Selon un article de recherche publié sur PNAS, le test visuel de Turing peut être utilisé pour déterminer si vous parlez à un humain ou à une IA à l'aide de questionnaires d'image. Cela fonctionne comme le test de Turing, mais au lieu de répondre aux questions à l'aide de textes, les participants voient des images et doivent répondre à des questions simples tout en pensant comme un humain. Cependant, le le test de Turing visuel est différent des CAPTCHA puisque toutes les réponses sont correctes, mais pour réussir le test, l'IA doit traiter les images de la même manière qu'un humain.
Au-delà de cela, si une IA et un humain voient plusieurs images côte à côte et qu'on leur demande d'identifier des images réalistes, l'humain aurait la capacité cognitive de réussir le test. En effet, les modèles d'IA ont du mal à distinguer les images qui ne semblent pas avoir été prises dans le monde réel. En fait, c'est la raison pour laquelle vous pouvez identifier les images générées par l'IA en utilisant des anomalies qui n'ont pas de sens.
3. Le test Lovelace 2.0
La théorie selon laquelle un ordinateur ne peut pas créer d'idées originales au-delà de ce pour quoi il a été programmé a été conceptualisée pour la première fois par Ada Lovelace avant le test de Turing. Cependant, Alan Turing s'est opposé à cette théorie en faisant valoir que l'IA peut encore surprendre les humains. Ce n'est qu'en 2001 que les lignes directrices du test de Lovelace ont été élaborées pour distinguer une IA d'un humain - et, selon le labibliothèquekurzweilli les règles ont ensuite été révisées en 2014.
Pour qu'une IA réussisse le test de Lovelace, elle doit démontrer qu'elle peut générer des idées originales qui dépassent sa formation. Les modèles d'IA actuels comme GPT-4 n'ont pas la capacité de proposer de nouvelles inventions au-delà de nos connaissances existantes. Cependant, intelligence artificielle générale peut atteindre cette capacité et réussir le test de Lovelace.
4. Test de Turing inverse
Que diriez-vous du test de Turing, mais fait à l'envers? Au lieu d'essayer de savoir si vous parlez à un humain, l'objectif du test de Turing inverse est de tromper l'IA en lui faisant croire que vous êtes une IA. Cependant, vous avez également besoin d'un autre modèle d'IA pour répondre aux mêmes questions en utilisant du texte.
Par exemple, si ChatGPT-4 est l'interrogateur, vous pouvez inscrire Google Bard et un autre humain en tant que participants. Si le modèle d'IA peut identifier correctement le participant humain sur la base des réponses, il a réussi le test.
L'inconvénient du test de Turing inversé est qu'il n'est pas fiable, d'autant plus que parfois L'IA ne peut pas différencier les produits générés par l'IA et le contenu écrit par l'homme.
5. Cadre de classification de l'IA
Selon le cadre de classification de l'IA développé par Chris Saad, le test de Turing n'est qu'une méthode d'évaluation pour savoir si vous parlez à une IA. Plus succinctement, le cadre de classification de l'IA est basé sur la théorie de l'intelligence multiple, qui exige que l'intelligence humaine satisfasse au moins huit critères différents, ce qui comprennent: le rythme musical, l'intelligence logique-mathématique, l'identification visuelle, l'intelligence émotionnelle, l'intelligence auto-réflexive, la capacité de réflexion existentielle et le corps mouvement.
Étant donné que l'IA est évaluée sur huit paramètres différents, il est peu probable qu'elle passe pour un humain, même si elle fonctionne mieux que la moyenne dans certains benchmarks. Par exemple, ChatGPT peut résoudre des problèmes mathématiques, décrire des images et converser dans un langage naturel comme un humain, mais cela échouerait dans d'autres catégories définies dans le cadre de classification de l'IA.
Le test de Turing n'est pas concluant
Le test de Turing était censé être plus une expérience de pensée qu'un test concluant pour différencier les humains de l'IA. Lorsqu'il a été initialement proposé, il s'agissait de la référence incontournable pour mesurer l'intelligence des machines.
Cependant, avec le développement récent de modèles d'IA dotés de capacités interactives vocales, visuelles et auditives, le test de Turing est insuffisant car il se limite à la conversation textuelle. La solution la plus efficace serait d'introduire des alternatives de test de Turing qui différencient davantage les modèles d'IA des humains.