Alors qu'OpenAI ouvre la voie au développement de l'IA générative, beaucoup ont accusé Google d'être à la traîne. Cependant, pour ne pas être en reste, Google a lancé un nouveau grand modèle de langage, PaLM 2, lors de sa conférence Google I/O 2023.

Prévu pour être disponible en quatre tailles différentes pour une gamme d'applications, le nouveau LLM de Google alimente apparemment déjà plusieurs services Google, et bien d'autres sont à venir.

Qu'est-ce que PalM 2?

Lors de Google I/O 2023, qui s'est tenu le 10 mai, le PDG de Google, Sunda Pichai, a révélé le dernier jouet de Google: PAUME 2.

Abréviation de Pathways Language Model 2, le LLM mis à niveau de Google est la deuxième itération de PaLM, la première version étant lancée en avril 2022. Vous ne vous souvenez plus de PaLM? Eh bien, à l'époque, c'était une grande nouvelle et a suscité beaucoup d'intérêt pour sa capacité à converser un peu, à raconter des blagues de base, etc. Avance rapide de six mois, et Le GPT-3.5 d'OpenAI a tout fait sauter de l'eau, y compris PALM.

instagram viewer

Depuis, OpenAI a lancé GPT-4, une mise à jour massive sur GPT-3.5. Pourtant, alors que le nouveau modèle est intégré à de nombreux outils, notamment Bing AI Chat de Microsoft, Google vise à OpenAI et GPT-4 avec PaLM 2 et espère que son LLM mis à jour pourra combler ce qui semblait être un écart important - le lancement de Google Bard n'était pas un rugissement succès.

Pichai a annoncé que PaLM 2 sera disponible en quatre tailles de modèles différentes: Gecko, Otter, Bison et Unicorn.

Gecko est si léger qu'il peut fonctionner sur des appareils mobiles et est suffisamment rapide pour de superbes applications interactives sur l'appareil, même hors ligne. Cette polyvalence signifie que PaLM 2 peut être ajusté pour prendre en charge des classes entières de produits de plusieurs façons, pour aider plus de personnes.

Avec Gecko capable de traiter environ 20 jetons par seconde (les jetons sont les valeurs attribuées à de vrais mots à utiliser par les modèles d'IA génératifs), il semble susceptible de changer la donne pour les outils d'IA déployables mobiles.

Données d'entraînement PALM 2

Google n'était pas exactement à l'écoute des données d'entraînement de PaLM 2, ce qui est compréhensible étant donné qu'il vient juste d'être publié. Mais Google Rapport PalM 2 [PDF] a déclaré qu'il souhaitait que PaLM 2 ait une compréhension plus approfondie des mathématiques, de la logique et des sciences, et qu'une grande partie de son corpus de formation se concentrait sur ces sujets.

Pourtant, il convient de noter que PaLM n'était pas en reste. Quand Google a révélé PaLM, il a confirmé qu'il était formé sur 540 milliards de paramètres, ce qui était à l'époque un chiffre colossal.

Le GPT-4 d'OpenAI est censé utiliser plus d'un billion de paramètres, certaines spéculations mettant ce chiffre à 1,7 billion. Il y a fort à parier que comme Google veut que PaLM 2 concurrence directement les LLM d'OpenAI, il présentera, à tout le moins, un chiffre comparable, sinon plus.

Un autre coup de pouce important pour PaLM 2 est ses données de formation linguistique. Google a formé PaLM 2 dans plus de 100 langues pour lui donner une plus grande profondeur et une meilleure compréhension contextuelle et augmenter ses capacités de traduction.

Mais il n'y a pas que les langues parlées. Lié à la demande de Google pour PaLM 2 pour fournir un meilleur raisonnement scientifique et mathématique, le LLM a également été formé dans plus de 20 langages de programmation, ce qui en fait un atout phénoménal pour les programmeurs.

PaLM 2 alimente déjà les services Google, mais nécessite encore un réglage fin

Il ne faudra pas longtemps avant que nous puissions mettre la main sur PaLM 2 et voir ce qu'il peut faire. Avec un peu de chance, le lancement de toutes les applications et services PaLM 2 sera meilleur que Bard.

Mais vous avez peut-être (techniquement !) déjà utilisé PaLM 2. Google a confirmé que PaLM 2 est déjà déployé et utilisé dans 25 de ses produits, notamment Android, YouTube, Gmail, Google Docs, Google Slides, Google Sheets, etc.

Mais le rapport PaLM 2 révèle également qu'il reste encore du travail à faire, en particulier en ce qui concerne les réponses toxiques dans une gamme de langues.

Par exemple, lorsqu'il est spécifiquement donné des invites toxiques, PaLM 2 génère des réponses toxiques plus de 30 pour cent du temps. De plus, dans des langues spécifiques - anglais, allemand et portugais - PaLM 2 a fourni des réponses toxiques plus plus de 17% du temps, avec des invites incluant des identités raciales et des religions poussant ce chiffre plus haut.

Peu importe à quel point les chercheurs tentent de nettoyer les données de formation LLM, il est inévitable que certains passent à travers. La phase suivante consiste à poursuivre la formation de PaLM 2 pour réduire ces réponses toxiques.

C'est une période de boom pour les grands modèles de langage

OpenAI n'a pas été le premier à lancer un grand modèle de langage, mais ses modèles GPT-3, GPT-3.5 et GPT-4 ont sans aucun doute allumé le papier bleu sur l'IA générative.

Le PaLM 2 de Google a quelques problèmes à résoudre, mais le fait qu'il soit déjà utilisé dans plusieurs services Google montre la confiance que l'entreprise a dans son dernier LLM.