Les créateurs de ChatGPT ont un autre outil qui vise à soulager vos doigts.

Les mêmes personnes derrière ChatGPT ont créé un autre outil basé sur l'IA que vous pouvez utiliser aujourd'hui pour augmenter votre productivité. Nous faisons référence à Whisper, une solution voix-texte qui a éclipsé toutes les solutions similaires qui l'ont précédée.

Vous pouvez utiliser Whisper dans vos programmes ou en ligne de commande. Et pourtant, cela va à l'encontre de son objectif même: taper sans clavier. Si vous avez besoin de taper pour l'utiliser, pourquoi l'utiliser pour éviter de taper? Heureusement, vous pouvez désormais utiliser Whisper via une interface graphique de bureau. Mieux encore, il peut également retranscrire votre voix presque en temps réel. Voyons comment vous pouvez taper avec votre voix en utilisant Whisper Desktop.

Qu'est-ce que Whisper d'OpenAI?

Whisper d'OpenAI est un système de reconnaissance automatique de la parole (ASR en abrégé) ou, pour le dire simplement, est une solution pour convertir le langage parlé en texte.

instagram viewer

Cependant, contrairement aux anciens systèmes de dictée et de transcription, Whisper est une solution d'IA entraînée sur plus de 680 000 heures de parole dans différentes langues. Whisper offre une précision inégalée et, de manière assez impressionnante, non seulement il est multilingue, mais il peut également traduire entre les langues.

Plus important encore, il est gratuit et disponible en open source. Grâce à cela, de nombreux développeurs ont introduit son code dans leurs propres projets ou créé des applications qui en dépendent, comme Whisper Desktop.

Si vous préférez la version "vanille" de Whisper et la polyvalence du terminal au lieu d'interfaces graphiques maladroites, consultez notre article sur comment transformer votre voix en texte avec OpenAI's Whisper pour Windows.

Whisper et Whisper Desktop sont-ils identiques?

Malgré son nom à consonance officielle, Whisper Desktop est une interface graphique tierce pour Whisper, conçue pour tous ceux qui préfèrent cliquer sur des boutons au lieu de taper des commandes.

Whisper Desktop est une solution autonome qui ne repose pas sur une installation Whisper existante. En prime, il utilise une version alternative et optimisée de Whisper, il devrait donc fonctionner mieux que la version autonome.

Vous êtes à l'autre bout du spectre, et au lieu de chercher un moyen plus simple d'utiliser Whisper que le terminal, vous cherchez des moyens de l'implémenter dans vos propres solutions? Réjouis-toi, pour OpenAI a ouvert l'accès aux API ChatGPT et Whisper.

Télécharger et installer Whisper Desktop

Bien que Whisper Desktop soit plus facile à utiliser que le Whisper autonome, son installation est plus compliquée que de cliquer à plusieurs reprises sur Suivant dans un assistant.

  1. Visite Page Github officielle de Whisper Desktop. Regardez à droite et cliquez sur la dernière version sous Communiqués.
  2. Sous Actifs, Cliquez sur WhisperDesktop.zip et téléchargez-le sur votre PC.
  3. Extrayez l'archive téléchargée dans un dossier et utilisez votre gestionnaire de fichiers pour la visiter. À l'intérieur, vous trouverez l'application Whisper Desktop. Double-cliquez dessus pour l'exécuter.
  4. Vous avez également besoin d'un modèle de langage Whisper dans GCML format binaire. Whisper Desktop vous fournira deux liens pour en acquérir un. Ignorez le deuxième lien pour générer votre propre modèle car il s'agit d'un processus plus compliqué. Cliquer sur Visage étreignant pour ouvrir cette page dans votre navigateur par défaut, à partir duquel vous pouvez télécharger un fichier prêt à l'emploi.
  5. La version de Whisper Desktop que nous avons utilisée lors de la rédaction de cet article fournissait un lien vers un référentiel obsolète sur Hugging Face. Si vous rencontrez le même problème, notez un lien vers un nouvel emplacement. Cliquez dessus pour visiter le nouveau référentiel.
  6. Cliquez sur le lien qui vous amènera aux des modèles.
  7. Dans cette liste, cliquez soit sur le ggml-medium.bin ou ggml-medium.en.bin, selon que vous souhaitez une prise en charge multilingue ou en anglais uniquement dans Whisper.
  8. Enfin, vous devriez avoir atteint votre destination. Notez la ligne indiquant que ce fichier est stocké avec Git LFS et qu'il est trop volumineux pour être affiché, mais vous pouvez toujours le télécharger. Cliquer sur télécharger faire précisément cela.
  9. Une fois le téléchargement du fichier terminé, utilisez votre gestionnaire de fichiers préféré (l'explorateur de fichiers fera l'affaire) pour déplacer le fichier de modèle de langue téléchargé dans le même dossier que Whisper Desktop.

Transcrire avec Whisper Desktop

La transcription avec Whisper Desktop est facile, mais vous aurez peut-être encore besoin d'un ou deux clics pour utiliser l'application.

Relancez Whisper Desktop. Manque-t-il (toujours) le chemin correct vers votre modèle de langue téléchargé? Clique sur le bouton avec les trois points à droite du champ et sélectionnez manuellement le fichier que vous avez téléchargé depuis Hugging Face.

À partir de cet endroit, vous pouvez également utiliser le menu déroulant à côté de Mise en œuvre du modèle pour choisir si vous voulez exécuter Whisper sur votre GPU (GPU), à la fois sur le CPU et le GPU (Hybride), ou uniquement sur le CPU (Référence).

Le Avancé Le bouton mène à plus d'options qui affectent la façon dont Whisper fonctionnera sur votre matériel. Cependant, comme le bouton indique clairement qu'ils sont avancés, nous vous suggérons de les modifier uniquement si vous êtes en train de dépanner ou si vous savez ce que vous faites. Définir les mauvaises valeurs d'options ici peut imposer une pénalité de performance ou rendre l'application inutilisable.

Cliquez sur OK pour passer à l'interface principale de l'application.

Si vous avez déjà un enregistrement de votre voix que vous souhaitez transformer en texte écrit, cliquez sur Transcrire le fichier et sélectionnez-le. Néanmoins, nous utiliserons Whisper Desktop pour la transcription en direct de cet article.

Les options proposées sont simples. Vous pouvez sélectionner le langue Whisper utilisera, choisissez si vous voulez traduire entre les langues et activer l'application Console de débogage.

La plupart des utilisateurs anglophones peuvent ignorer ces options en toute sécurité et s'assurer que la bonne entrée audio est sélectionnée dans le menu déroulant à côté de Dispositif de capture.

S'assurer Enregistrer dans un fichier texte et Joindre à ce fichier sont activés pour que Whisper Desktop enregistre sa sortie dans un fichier sans écraser son contenu. Utilisez le bouton avec les trois points à droite du champ du chemin du fichier pour définir ledit fichier texte.

Cliquer sur Capture pour commencer à transcrire votre discours en texte.

Whisper Desktop vous montrera trois indicateurs pour savoir quand il détecte une activité vocale, quand il transcrit activement et quand le processus est bloqué.

Vous pouvez continuer à parler aussi longtemps que vous le souhaitez, et vous devriez parfois voir les deux premiers indicateurs clignoter pendant que l'application transforme votre voix en texte. Cliquez sur Arrêt lorsque vous avez terminé.

Le fichier texte que vous avez sélectionné devrait s'ouvrir dans votre éditeur de texte par défaut, contenant sous forme écrite tout ce que vous avez dit jusqu'à ce que vous cliquiez Arrêt.

Il convient de noter que vous pouvez également faire le contraire de ce que nous avons vu ici: convertir n'importe quel texte en parole. De cette façon, vous pouvez écouter n'importe quoi comme s'il s'agissait d'un podcast au lieu de vous fatiguer les yeux en louchant sur les écrans. Pour plus d'informations à ce sujet, consultez notre article sur certains des meilleurs outils en ligne gratuits pour télécharger la synthèse vocale en tant qu'audio MP3.

Conseils de saisie vocale Whisper Desktop

Bien que Whisper Desktop puisse être une bouée de sauvetage, vous permettant d'écrire avec votre voix beaucoup plus rapidement que vous ne pourriez taper, c'est loin d'être parfait.

Au cours de nos tests, nous avons constaté qu'il peut parfois bégayer, sauter certains mots, ne pas transcrire jusqu'à ce que vous arrêtez et redémarrez manuellement le processus, ou restez coincé dans une boucle et continuez à retranscrire la même phrase à plusieurs reprises.

Nous pensons que ce sont des problèmes temporaires qui seront corrigés car le Whisper autonome ne présente pas les mêmes problèmes.

En dehors de ces petites bosses, transformer votre voix en texte devrait se faire sans effort avec Whisper Desktop. Pourtant, lors de nos tests, nous avons constaté qu'il peut être encore plus performant si...

  1. Au lieu de prononcer seulement deux ou trois mots puis de faire une pause, Whisper peut mieux vous comprendre si vous continuez plus longtemps. Essayez de lui donner au moins une phrase entière à la fois.
  2. Pour la même raison, évitez de démarrer et d'arrêter à plusieurs reprises le processus de transcription.
  3. Chaque fois que vous réalisez que vous avez fait une erreur, ignorez-la et continuez. Le chargement et le déchargement du modèle de langage semblent être la partie la plus longue du processus avec l'état actuel de Whisper et notre matériel disponible. Ainsi, il est plus rapide de continuer à parler, puis de corriger vos erreurs par la suite.
  4. Comme pour la version autonome de Whisper, il est préférable d'utiliser le modèle de langage optimal pour votre matériel disponible. Vous pouvez utiliser jusqu'à moyen modèle si votre GPU dispose de 8 Go de VRAM. Pour moins de VRAM, optez pour les modèles plus petits. Ne choisissez que le peu plus précis mais aussi beaucoup plus exigeant grand modèle si vous utilisez un GPU avec 16 Go de VRAM ou plus.
  5. N'oubliez pas que plus le modèle de langage est grand, plus le processus de transcription est lent. N'optez pas pour un modèle plus grand que nécessaire. Vous constaterez probablement que Whisper Desktop peut déjà "vous comprendre" la plupart du temps avec les modèles moyens ou plus petits, avec seulement une ou deux erreurs par paragraphe.

Êtes-vous toujours en train de taper? Utilisez votre voix avec Whisper

Bien qu'il nécessite un certain temps de configuration, comme vous le verrez lorsque vous l'essayerez, Whisper Desktop fonctionne bien mieux que la plupart des alternatives, avec une précision beaucoup plus élevée et une meilleure vitesse.

Après avoir commencé à l'utiliser pour taper avec votre voix, votre clavier peut ressembler à une relique des temps anciens.