8 facteurs clés à prendre en compte lors du test de précision des chatbots IA

Vous pouvez tester différents chatbots IA pour déterminer celui qui fonctionne le mieux. Mais comment devriez-vous faire cela? Voici quelques facteurs clés à considérer.

L'IA a parcouru un long chemin depuis la production de résultats non pertinents et incohérents. Les chatbots modernes utilisent des modèles de langage avancés qui répondent à des questions de connaissances générales, rédigent de longs essais et écrivent du code, entre autres tâches complexes.

Malgré ces avancées, notez que même les systèmes les plus sophistiqués ont des limites. L'IA fait encore des erreurs. Pour déterminer quels chatbots sont les moins sujets aux hallucinations, testez leur précision en fonction de ces facteurs.

1. Numératie

Exécutez des équations mathématiques via des chatbots. Ils testeront la capacité de la plate-forme à analyser les problèmes de mots, à traduire des concepts mathématiques et à appliquer des formules correctes. Seuls quelques modèles démontrent une numératie fiable. En fait, l'un des

instagram viewer

Les pires problèmes de ChatGPT pendant ses premiers mois ont été sa terrible compréhension des mathématiques.

L'image ci-dessous montre que ChatGPT échoue aux statistiques de base.

ChatGPT a montré une amélioration après OpenAI a déployé ses mises à jour de mai 2023. Mais compte tenu de ses ensembles de données limités, vous aurez toujours des problèmes avec les calculs mathématiques intermédiaires à avancés.

Pendant ce temps, Bing Chat et Google Bard affichent une meilleure numératie. Ils exécutent des requêtes via leurs moteurs de recherche respectifs, ce qui leur permet d'extraire des formules et des feuilles de réponses.

Essayez de reformuler vos problèmes de mots. Évitez les longues phrases et remplacez les verbes faibles; sinon, les chatbots pourraient mal comprendre vos questions.

2. Compréhension

Les systèmes d'IA modernes peuvent assumer plusieurs tâches. Les LLM avancés leur permettent de conserver les instructions précédentes et de répondre aux invites par section, tandis que les systèmes plus anciens traitent des commandes singulières. Par exemple, Siri répond à une question à la fois.

Nourrissez les chatbots de trois à cinq tâches simultanément pour tester leur capacité à analyser les invites complexes. Les modèles moins sophistiqués ne peuvent pas traiter autant d'informations. L'image ci-dessous montre que HuggingChat fonctionne mal à une invite en trois étapes - il s'arrête à la première étape et s'écarte du sujet.

Les dernières lignes de HuggingChat sont déjà incohérentes.

ChatGPT complète rapidement la même invite, générant des réponses intelligentes et sans erreur à chaque étape.

Bing Chat fournit une réponse condensée aux trois étapes. Ses restrictions rigides interdisent les sorties inutilement longues qui gaspillent la puissance de traitement.

3. Opportunité

Étant donné que la formation à l'IA coûte des ressources énormes, la plupart des développeurs limitent les ensembles de données à des périodes spécifiques. Prenez ChatGPT comme exemple. Il a une limite de connaissances de septembre 2021 - vous ne pouvez pas demander de mises à jour météorologiques, de bulletins d'information ou de développements récents. Voici ChatGPT disant qu'il n'a pas accès aux informations en temps réel.

Barde a accès à Internet. Il extrait les données des SERP de Google, ce qui vous permet de poser un plus large éventail de questions, par exemple des événements récents, des actualités et des prévisions.

De même, Bing Chat extrait des informations en temps réel de son moteur de recherche.

Bing Chat et Bard fournissent des informations opportunes et à jour, mais ce dernier fournit des réponses plus détaillées. Bing présente simplement les données telles quelles. Vous remarquerez que ses sorties correspondent souvent au phrasé et au ton de ses sources liées textuellement.

4. Pertinence

Les chatbots doivent fournir des résultats pertinents. Ils doivent tenir compte de la signification littérale et contextuelle de vos invites lorsqu'ils répondent. Prenez cette conversation comme exemple. Notre personnage a besoin d'un nouveau téléphone, mais ne dispose que de 1 000 $ - ChatGPT ne dépasse pas le budget.

Lorsque vous testez la pertinence, essayez de rédiger de longues instructions. Les chatbots moins sophistiqués ont tendance à prendre la tangente lorsqu'ils reçoivent des instructions confuses. Par exemple, HuggingChat peut composer des histoires fictives. Mais cela peut s'écarter du sujet principal si vous définissez trop de règles et de directives.

5. Mémoire contextuelle

La mémoire contextuelle aide l'IA à produire une sortie précise et fiable. Au lieu de prendre vos questions au pied de la lettre, ils enchaînent les détails que vous mentionnez. Prenez cette conversation comme exemple. Bing Chat relie deux messages distincts pour former une réponse utile et concise.

De même, la mémoire contextuelle permet aux chatbots de se souvenir des instructions. Cette image montre ChatGPT imitant la façon dont un personnage fictif parle à travers plusieurs chats.

Testez cette fonction vous-même en vous référant systématiquement aux déclarations précédentes. Donnez aux chatbots diverses informations, puis forcez-les à les rappeler dans des réponses ultérieures.

La mémoire contextuelle est limitée. Bing Chat démarre de nouvelles conversations tous les 20 tours, tandis que ChatGPT ne peut pas traiter les invites de plus de 3 000 jetons.

6. Restrictions de sécurité

L'IA ne fonctionne pas toujours comme prévu. Une formation défectueuse peut entraîner technologies d'apprentissage automatique pour commettre diverses erreurs, des erreurs mathématiques mineures aux commentaires problématiques. Prendre MicrosoftTay par exemple. Les utilisateurs de Twitter ont exploité son modèle d'apprentissage non supervisé et l'ont conditionné à dire des insultes raciales.

Heureusement, les leaders mondiaux de la technologie ont appris de la bévue de Microsoft. Bien que rentable et pratique, l'apprentissage non supervisé laisse les systèmes d'IA sujets à la tromperie. Par conséquent, les développeurs s'appuient principalement sur l'apprentissage supervisé de nos jours. Les chatbots aiment ChatGPT apprend toujours des conversations, mais leurs formateurs filtrent d'abord les informations.

Attendez-vous à des directives différentes de la part des entreprises d'IA. Les restrictions moins rigides de ChatGPT s'adaptent à un plus large éventail de tâches, mais sont faibles contre l'exploitation. Pendant ce temps, Bing Chat suit des limites plus strictes. S'ils aident à lutter contre les tentatives d'exploitation, ils entravent également la fonctionnalité. Bing ferme automatiquement les conversations potentiellement dangereuses.

7. Biais de l'IA

L'IA est intrinsèquement neutre. Son manque de préférences et d'émotions le rend incapable de se forger une opinion - il ne fait que présenter des informations qu'il connaît. Voici comment ChatGPT répond aux sujets subjectifs.

Malgré cette neutralité, Biais de l'IA se posent encore. Ils découlent des modèles, des ensembles de données, des algorithmes et des modèles que les développeurs utilisent. L'IA est peut-être impartiale, mais les humains ne le sont pas.

Par exemple, L'Institut Brookings affirme que ChatGPT démontre des préjugés politiques de gauche. OpenAI nie ces allégations, bien sûr. Mais pour éviter des problèmes similaires avec les modèles plus récents, ChatGPT évite complètement les sorties opiniâtres.

De même, Bing Chat évite les sujets sensibles et subjectifs.

Évaluez vous-même les biais de l'IA en posant des questions ouvertes basées sur l'opinion. Parlez de sujets sans bonne ou mauvaise réponse - les chatbots moins sophistiqués afficheront probablement des préférences sans fondement envers des groupes spécifiques.

8. Les références

L'IA vérifie rarement les faits. Il extrait simplement les informations de ses ensembles de données et les reformule à l'aide de modèles de langage. Malheureusement, un entraînement limité provoque des hallucinations de l'IA. Vous pouvez toujours utiliser des outils d'IA générative pour la recherche, mais assurez-vous de vérifier vous-même les faits. Prenez la sortie avec un grain de sel.

Bing Chat simplifie le processus de vérification des faits en répertoriant ses références après chaque sortie.

Bard AI ne répertorie pas ses sources mais génère des explications détaillées et mises à jour en exécutant des requêtes de recherche Google. Vous obtiendrez les principaux points des SERP.

ChatGPT est sujet à des inexactitudes. Son seuil de connaissance de 2021 l'empêche de répondre aux questions sur les événements et incidents récents.

Créez de nouvelles façons de tester la précision des chatbots

L'IA n'est pas l'alpha et l'oméga de la technologie. Alors que les systèmes d'IA sophistiqués et les modèles de langage accomplissent des exploits impressionnants, ils commettent également des erreurs et des incohérences. Voir les chatbots avec scepticisme. Vous ne pouvez utiliser les plates-formes pilotées par l'IA que si vous comprenez leurs fonctions et leurs limites.

Bien qu'il existe des dizaines de chatbots sur toutes les plateformes, leur fiabilité et leur précision pourraient vous décevoir. Vous perdrez simplement du temps à les tester. Pour garantir des résultats de qualité, nous vous suggérons de vous concentrer sur les trois modèles les plus robustes du marché: ChatGPT, Bing AI et Google Bard.

About Technology - denizatm.com

8 facteurs clés à prendre en compte lors du test de précision des chatbots IA

1. Numératie

2. Compréhension

3. Opportunité

4. Pertinence

5. Mémoire contextuelle

6. Restrictions de sécurité

7. Biais de l'IA

8. Les références

Créez de nouvelles façons de tester la précision des chatbots

Catégories

Recent Post

Les 8 meilleurs portefeuilles cryptographiques logiciels pour stocker vos actifs

4 meilleures façons de sauvegarder vos clés de portefeuille de crypto-monnaie

Comment rendre vos AirPods plus forts: 4 solutions