Whisper d'OpenAI est une nouvelle solution alimentée par l'IA qui peut transformer votre voix en texte. Mieux encore, cela ne coûte rien.
Cependant, il y a un hic: il est plus difficile à installer et à utiliser que votre utilitaire Windows moyen. Surtout si vous souhaitez utiliser les Tensor Cores de votre GPU Nvidia pour lui donner un bon coup de pouce.
Ne vous inquiétez pas, cependant. C'est pourquoi nous sommes ici! Lisez la suite pour savoir comment l'installer et l'utiliser, mais aussi, si vous en possédez un, pour que Whisper profite de votre GPU Nvidia.
Qu'est-ce que Whisper d'OpenAI?
ChatGPT fait fureur de nos jours, et nous avons déjà vu comment vous pouvez utiliser ChatGPT par OpenAI. Et pourtant, ce n'est pas le seul projet intéressant d'OpenAI.
Propulsé par l'apprentissage en profondeur et les réseaux de neurones, Whisper est un système de traitement du langage naturel capable de "comprendre" la parole et de la transcrire en texte. Mais c'est aussi sa propre chose, assis à une place parmi toutes les solutions similaires :
- Whisper est une solution d'IA "formée" au langage naturel. Il est donc plus efficace pour comprendre le discours humain "normal" que les anciennes solutions.
- Whisper n'est pas livré avec une interface et ne peut pas non plus enregistrer d'audio. Il ne peut prendre que des fichiers audio existants et produire des fichiers texte.
- Puisqu'il est bon pour "donner un sens au langage", Whisper a également le super pouvoir de la traduction automatique en une seule étape.
- Whisper n'est pas un service en ligne et peut fonctionner entièrement hors ligne.
- Si vous avez un GPU Nvidia relativement moderne (GTX970 ou plus récent), Whisper peut fonctionner en "mode accéléré matériel" pour augmenter sa vitesse.
- Il n'y a aucune obligation de s'inscrire, d'acheter une licence ou d'acheter un abonnement.
Pourquoi les GPU AMD ne sont-ils pas pris en charge?
Pour que les GPU soient utiles pour plus que des graphiques, ils devraient agir comme des processeurs entièrement programmables. C'est pourquoi Nvidia a créé CUDA, officiellement considéré comme "une plate-forme informatique parallèle et un modèle de programmation". Pour en savoir plus sur CUDA et le matériel associé (« cœurs CUDA »), lisez notre article sur que sont les cœurs CUDA et comment ils améliorent les jeux sur PC.
CUDA est une technologie propriétaire Nvidia, uniquement compatible avec les GPU Nvidia. Les alternatives les plus proches pour le matériel d'AMD sont OpenCL et Radeon Compute Platform. Pour en savoir plus sur la comparaison des solutions de chaque entreprise, consultez notre article sur Unités de calcul AMD vs. Cœurs Nvidia CUDA.
Par rapport aux alternatives, CUDA est considéré comme plus mature, performant et plus facile à utiliser. Ainsi, la plupart des développeurs ne ciblent que CUDA, ce qui signifie que leur logiciel ne tire parti que des fonctionnalités matérielles des GPU Nvidia. Et cela inclut Whisper.
Comment télécharger et installer Whisper
Malheureusement, Whisper n'est pas une application autonome que vous pouvez télécharger, installer et exécuter. Il s'appuie sur d'autres logiciels, qui doivent également être installés.
Pour Windows, pour que ce guide reste simple, nous utiliserons intensivement Chocolatey pour installer la plupart des composants logiciels nécessaires. Consultez notre guide sur le moyen le plus rapide d'installer un logiciel Windows pour plus d'informations sur Chocolatey.
Pour Linux et Mac, le processus d'installation (à l'exception de la variable de chemin Windows et des fichiers batch faciles à utiliser que nous créerons) devrait être similaire.
- Pour installer et utiliser Whisper, vous devez avoir Python et son PÉPIN outil installé et ajouté à la variable "Path" de Windows. Pour plus d'informations à ce sujet, consultez notre article sur comment installer Python PIP sur Windows, Mac et Linux.
- Installer FFMPEG via Chocolatey avec cette commande:
Aussi, installez sa version Python avec:choco installer ffmpeg
pip3 installer python-ffmpeg
- Enfin, installez Whisper depuis sa page Github avec:
pip3 install git+https ://github.com/openai/whisper.git
Obtenir la version compatible CUDA de Whisper
Bien que Whisper n'utilise pas les GPU Nvidia, le torche Le package sur lequel il s'appuie propose une version accélérée par CUDA. L'utiliser au lieu de la version "simple" peut aider Whisper à terminer ses transcriptions beaucoup plus rapidement à l'aide de votre GPU Nvidia.
Pour que Whisper utilise les cœurs CUDA de votre GPU Nvidia :
- Si vous avez déjà installé la version "vanille" de la torche, désinstallez-la et purgez les restes avec:
Une fois que c'est fait, suivez-le avec:pip3 désinstaller torche
pépin cachepurge
- Installez la version compatible CUDA de la torche avec:
pip3 installer torche torchevision torcheaudio --extra-index-url https://download.pytorch.org/whl/cu117
- Pour vérifier si Whisper peut utiliser votre GPU Nvidia, utilisez:
Tu devrais voir (par défaut: cuda) au lieu de (par défaut: processeur).chuchoter --help | findstr -i pytorch
Que faire si la torche ne s'installe pas
Si vous rencontrez l'erreur "aucune version trouvée" lors de l'installation de torche, vous devrez peut-être installer une ancienne version de Python parallèlement à votre version actuelle.
Utilisez cette commande pour le faire :
choco installer python --version OLDER_VERSION --side-by-side
Remplacez "OLDER_VERSION" par une version, comme 3.10.
Ensuite, utilisez le chemin de la version secondaire pour toutes les commandes Whisper "génériques" (par exemple, "c:\Python310\Scripts\pip.exe" plutôt que simplement "pip").
Comment enregistrer votre voix
Vous pouvez utiliser n'importe quelle application d'enregistrement sonore pour transformer votre voix en fichier WAV ou MP3. Windows inclut une telle application - pour plus d'informations à ce sujet, voir comment utiliser l'application Windows 10 Voice Recorder.
Pour une option plus complète, essayez Audace. Apprenez à le faire avec notre guide sur comment utiliser Audacity pour enregistrer de l'audio sur Windows et Mac.
Comment commencer à transcrire avec Whisper
Bien que Whisper ne soit pas livré avec une interface graphique conviviale, son utilisation est ultra-simple.
Disons que nous avons le fichier DernièreNote.mp3 qui contient un discours en grec, dans un dossier c:\MesFichiersAudio, et que vous souhaitez le traduire en anglais et le transcrire dans un fichier texte.
- On commence par courir Invite de commandes ou PowerShell.
- Nous "changeons de répertoire" où le fichier audio est stocké avec cette commande:
CD C:\MesFichiersAudio
- On lâche Whisper sur le dossier avec:
chuchoter--modèlebase--langueg--tâchetraduireDernière note.mp3
Une fois traité, le fichier texte (nommé "LatestNote.mp3.txt") apparaîtra dans le même dossier. Ouvrez-le dans un éditeur de texte comme Bloc-notes pour afficher le texte traduit.
Nous avons utilisé un exemple de traduction car la transcription en anglais est encore plus simple: vous n'avez qu'à "perdre" les drapeaux "--language" et "-task". Ainsi, pour une transcription simple, la commande ci-dessus serait :
chuchoter--modèlebaseDernière note.mp3
Le drapeau "modèle" est requis car Whisper utilise l'une des différentes options. Développons-les pour vous aider à choisir le meilleur pour vos besoins.
Quel modèle choisir ?
Whisper propose différents modèles de langage. Plus le modèle est grand, plus sa précision est améliorée, mais aussi plus ses exigences matérielles sont élevées. Ils sont:
- Minuscule.
- Base.
- Petit.
- Moyen.
- Grand.
La plupart des anglophones devraient être d'accord avec le minuscule ou base des modèles. Les anglophones non natifs peuvent voir de meilleurs résultats avec des modèles plus grands, comme petit et moyen.
Notez cependant que les modèles moyens et grands nécessitent plus de 8 Go de VRAM (c'est-à-dire « la mémoire de votre GPU »).
Pour en sélectionner un, spécifiez le modèle après le commutateur "--model" dans la commande :
chuchoter --model petit/petit/moyen/grand [fichier]
Par exemple:
chuchoter--modèlepetitMa_Voice_Note.mp3
Comment rationaliser votre transcription
Devoir taper toute la commande Whisper à chaque fois que vous souhaitez transcrire de l'audio peut rapidement devenir ennuyeux. Créons un fichier de commandes accessible dans le monde entier pour rationaliser le processus.
- Courir Windows Explorer et visitez votre lecteur C:.
- Créez un dossier pour vos scripts et copiez son chemin dans le Presse-papiers.
- Dans le menu Démarrer de Windows, recherchez "chemin" et sélectionnez Modifier les variables d'environnement système.
- Trouvez le Chemin variable sous Variables utilisateur pour YOUR_USERNAME. Double-cliquez dessus pour le modifier. Cliquer sur Nouveau, et collez le chemin d'accès à votre dossier de scripts. Cliquer sur D'ACCORD pour accepter les changements.
- Revenez à votre dossier de scripts dans l'Explorateur Windows. Créez-y un nouveau fichier batch nommé "wht.bat". "À l'intérieur", placez cette commande:
chuchoter --model minuscule --language en %1
- Créez deux autres fichiers batch, "whs" et "whm".
- Placez ceci dans le premier script:
chuchoter --model petit --language en %1
- Placez ceci à l'intérieur de la seconde:
chuchoter --model medium --language en %1
Félicitations, vous disposez maintenant de trois scripts pour utiliser facilement les modèles minuscules, petits et moyens de Whisper avec vos fichiers audio! Pour transcrire n'importe quel fichier audio en texte :
- Localisez le fichier avec Explorateur de fichiers Windows.
- Clic-droit sur un emplacement vide et choisissez Ouvert dans l'aérogare.
- Tapez cette commande, en remplaçant "wht" par "whs" ou "whm" pour utiliser les modèles de langage petit ou moyen:
quoiVOTRE_AUDIO_FILE.mp3
Taper à la vitesse du son avec Whisper
Même les dactylographes les plus rapides ne peuvent égaler la vitesse à laquelle nous parlons. Cependant, jusqu'à récemment, parler au lieu de taper n'était pas optimal pour créer des documents.
La plupart des solutions voix-texte ont produit des résultats médiocres. Vous pouviez trouver quelques solutions qui valaient la peine d'être essayées, mais elles étaient compliquées à utiliser ou coûteuses. Heureusement, Whisper a changé tout cela.
Après les étapes ci-dessus, vous devriez être prêt à transcrire ou traduire votre voix avec une grande précision, en utilisant une seule commande.