Les utilisateurs accèdent généralement à de grands modèles de langage (LLM) via l'utilisation d'une interface utilisateur via une API. Bien qu'elle offre plusieurs avantages, l'utilisation des API introduit également des limitations, telles que la nécessité d'une connexion Internet constante. connexion, personnalisations limitées, problèmes de sécurité possibles et entreprises limitant les capacités du modèle via un mur de paiement.
Avec des LLM quantifiés désormais disponibles sur HuggingFace et des écosystèmes d'IA tels que H20, Text Gen et GPT4All vous permettant de charger des poids LLM sur votre ordinateur, vous avez maintenant une option pour un service gratuit, flexible et sécurisé IA.
Pour commencer, voici sept des meilleurs LLM locaux/hors ligne que vous pouvez utiliser dès maintenant !
1. Hermès GPTQ
Un modèle de langage de pointe affiné à l'aide d'un ensemble de données de 300 000 instructions par Nous Research. Hermes est basé sur le LLM LlaMA2 de Meta et a été affiné en utilisant principalement des sorties GPT-4 synthétiques.
Modèle |
Hermès 13b GPTQ |
Taille du modèle |
7,26 Go |
Paramètres |
13 milliards |
Quantification |
4 bits |
Taper |
LlaMA2 |
Licence |
GPL 3 |
L'utilisation de LlaMA2 comme modèle de base permet à Hermes de doubler la taille du contexte ou une taille de jeton maximale de 4 096. Associant une taille de contexte longue et une architecture d'encodeur, Hermes est connu pour donner des réponses longues et de faibles taux d'hallucinations. Cela fait d'Hermès un excellent modèle pour divers traitement du langage naturel (TAL) tâches, comme écrire du code, créer du contenu et être un chatbot.
Il existe plusieurs quantifications et versions du nouveau Hermes GPTQ. Nous vous recommandons d'essayer d'abord le modèle Hermes-Llama2 13B-GPTQ, car il s'agit de la version la plus facile à déployer tout en offrant d'excellentes performances.
2. Falcon Instruire GPTQ
Cette version quantifiée de Falcon est basée sur l'architecture de décodeur uniquement affinée sur le modèle brut Flacon-7b de TII. Le modèle Falcon de base a été formé à l'aide d'un nombre exceptionnel de 1,5 billion de jetons provenant de l'Internet public. En tant que modèle de décodeur basé sur des instructions uniquement sous licence Apache 2, Falcon Instruct est parfait pour les petites entreprises à la recherche d'un modèle à utiliser pour la traduction linguistique et la saisie de données.
Modèle |
Falcon-7B-Instruire |
Taille du modèle |
7,58 Go |
Paramètres |
7 milliards |
Quantification |
4 bits |
Taper |
Faucon |
Licence |
Apache 2.0 |
Cependant, cette version de Falcon n'est pas idéale pour le réglage fin et ne sert qu'à l'inférence. Si vous souhaitez affiner Falcon, vous devrez utiliser le modèle brut, qui peut nécessiter l'accès à du matériel de formation de niveau entreprise tel que NVIDIA DGX ou Accélérateurs d'IA AMD Instinct.
3.GPT4ALL-J Groovy
GPT4All-J Groovy est un modèle de décodeur uniquement affiné par Nomic AI et sous licence Apache 2.0. GPT4ALL-J Groovy est basé sur le modèle GPT-J original, qui est connu pour être excellent dans la génération de texte à partir des invites. GPT4ALL -J Groovy a été affiné en tant que modèle de chat, ce qui est idéal pour les applications de génération de texte rapides et créatives. Cela rend GPT4All-J Groovy idéal pour les créateurs de contenu en les aidant dans l'écriture et les travaux créatifs, qu'il s'agisse de poésie, de musique ou d'histoires.
Modèle |
GPT4ALL-J Groovy |
Taille du modèle |
3,53 Go |
Paramètres |
7 milliards |
Quantification |
4 bits |
Taper |
GPT-J |
Licence |
Apache 2.0 |
Malheureusement, le modèle GPT-J de base a été formé sur un ensemble de données en anglais uniquement, ce qui signifie que même ce modèle GPT4ALL-J affiné ne peut discuter et exécuter des applications de génération de texte qu'en anglais.
4.WizardCoder-15B-GPTQ
Vous recherchez un modèle spécialement conçu pour le codage? Malgré sa taille sensiblement plus petite, WizardCoder est connu pour être l'un des meilleurs modèles de codage surpassant d'autres modèles tels que LlaMA-65B, InstructCodeT5+ et CodeGeeX. Ce modèle a été formé à l'aide d'une méthode Evol-Instruct spécifique au codage, qui modifie automatiquement vos invites pour en faire une invite liée au codage plus efficace que le modèle peut mieux comprendre.
Modèle |
WizardCoder-15B-GPTQ |
Taille du modèle |
7,58 Go |
Paramètres |
15 milliards |
Quantification |
4 bits |
Taper |
Lama |
Licence |
bigcode-openrail-m |
Étant quantifié dans un modèle 4 bits, WizardCoder peut maintenant être utilisé sur des PC ordinaires, où les individus peuvent l'utiliser pour l'expérimentation et comme assistant de codage pour des programmes et des scripts plus simples.
5. Assistant Vicuna Uncensored-GPTQ
Wizard-Vicuna GPTQ est une version quantifiée de Wizard Vicuna basée sur le modèle LlaMA. Contrairement à la plupart des LLM rendus publics, Wizard-Vicuna est un modèle non censuré dont l'alignement a été supprimé. Cela signifie que le modèle n'a pas les mêmes normes de sécurité et de moralité que la plupart des modèles.
Modèle |
Assistant-Vicuna-30B-Non censuré-GPTQ |
Taille du modèle |
16,94 Go |
Paramètres |
30 milliards |
Quantification |
4 bits |
Taper |
Lama |
Licence |
GPL 3 |
Bien que posant peut-être un Problème de contrôle d'alignement de l'IA, avoir un LLM non censuré fait également ressortir le meilleur du modèle en étant autorisé à répondre sans aucune contrainte. Cela permet également aux utilisateurs d'ajouter leur alignement personnalisé sur la façon dont l'IA doit agir ou répondre en fonction d'une invite donnée.
6. Orca Mini-GPTQ
Vous cherchez à expérimenter un modèle entraîné sur une méthode d'apprentissage unique? Orca Mini est une implémentation modèle non officielle des documents de recherche Orca de Microsoft. Il a été formé en utilisant la méthode d'apprentissage enseignant-élève, où l'ensemble de données était plein d'explications au lieu de seulement des invites et des réponses. Ceci, en théorie, devrait se traduire par un étudiant plus intelligent, où le modèle peut comprendre le problème plutôt que de simplement rechercher des paires d'entrée et de sortie comme le fonctionnement typique des LLM.
Modèle |
Orca Mini-GPTQ |
Taille du modèle |
8,11 Go |
Paramètres |
3 milliards |
Quantification |
4 bits |
Taper |
Lama |
Licence |
MIT |
Avec seulement trois milliards de paramètres, Orca Mini GPTQ est facile à exécuter même sur des systèmes moins puissants. Cependant, ce modèle ne doit pas être utilisé pour quoi que ce soit de professionnel car il génère de fausses informations, des réponses biaisées et offensantes. Ce modèle doit être utilisé pour apprendre et expérimenter Orca et ses méthodes.
7.LlaMA 2 Chat GPTQ
LlaMA 2 est le successeur du LlaMA LLM original, qui a engendré la plupart des modèles de cette liste. LlaMA 2 est une collection de plusieurs LLM, chacun formé à l'aide de 7 à 70 milliards de paramètres. Dans l'ensemble, LlaMA 2 a été pré-formé à l'aide de 2 billions de jetons de données extraits d'ensembles de données d'instructions accessibles au public.
Modèle |
Falcon-40B-Instruire-GPTQ |
Taille du modèle |
7,26 Go |
Paramètres |
3 milliards |
Quantification |
4 bits |
Taper |
OpenLlaMA |
Licence |
CLUF (Méta Licence) |
LlaMA 2 est destiné à être utilisé à des fins commerciales et de recherche. En tant que tel, ce modèle est mieux utilisé après un réglage fin pour de meilleures performances sur des tâches spécifiques. Ce modèle GPTQ de chat LlaMA 2 spécifique a été affiné et optimisé pour le dialogue en anglais, ce qui le rend le modèle parfait pour les entreprises et les organisations en tant que chatbot avec peu ou pas de formation supplémentaire requis. Selon les termes, les entreprises ayant moins de 700 millions d'utilisateurs peuvent utiliser LlaMA 2 sans payer de frais de licence de Meta ou Microsoft.
Essayez dès aujourd'hui les modèles locaux en grande langue
Certains des modèles énumérés ci-dessus ont plusieurs versions en termes de paramètres. En général, les versions à paramètres plus élevés donnent de meilleurs résultats mais nécessitent un matériel plus puissant, tandis que les versions à paramètres inférieurs génèrent des résultats de qualité inférieure mais peuvent fonctionner sur du matériel bas de gamme. Si vous ne savez pas si votre PC peut exécuter le modèle, essayez d'abord d'opter pour la version à paramètres inférieurs, puis continuez jusqu'à ce que vous sentiez que la baisse des performances n'est plus acceptable.
Étant donné que les modèles quantifiés de cette liste n'occupent que quelques gigaoctets d'espace et que les plates-formes de déploiement de modèles telles que GPT4All et Text-Generation-WebUI peut facilement être installé via leurs installateurs en un clic, essayer plusieurs modèles et versions de modèles ne devrait pas prendre beaucoup de temps et d'efforts.
Alors qu'est-ce que tu attends? Essayez un modèle local dès aujourd'hui !