La reconnaissance vocale est géniale, mais comment est-elle devenue si bonne ?

La technologie de reconnaissance vocale a une riche histoire de développement qui l'a amenée à ce qu'elle est aujourd'hui. C'est au cœur de la vie moderne, nous donnant la possibilité d'effectuer des tâches simplement en parlant à un appareil. Alors, comment cette technologie étonnante a-t-elle évolué au fil des ans? Nous allons jeter un coup d'oeil.

1952: Le système Audrey

La première étape de la reconnaissance vocale est apparue au début des années 1950. Les Laboratoires Bell ont développé la première machine capable de comprendre la voix humaine en 1952, et elle a été nommée Système Audrey. Le nom Audrey était en quelque sorte une contraction de l'expression Automatic Digit Recognition. Même s'il s'agissait d'une innovation majeure, elle comportait des limites majeures.

Surtout, Audrey ne pouvait reconnaître que les chiffres numériques 0-9, pas de mots. Audrey donnerait un retour lorsque l'orateur prononçait un nombre en allumant 1 des 10 ampoules, chacune correspondant à un chiffre.

instagram viewer

Crédit d'image: metamorworks/Shutterstock.com

Alors qu'elle pouvait comprendre les chiffres avec une précision de 90 %, Audrey était confinée à un type de voix spécifique. C'est pourquoi la seule personne qui l'utiliserait vraiment était HK Davis, l'un des développeurs. Lorsqu'un nombre était prononcé, le locuteur devait attendre au moins 300 millisecondes avant de prononcer le suivant.

Non seulement sa fonctionnalité était limitée, mais son utilité était également limitée. Il n'y avait pas beaucoup d'utilité pour une machine qui ne pouvait comprendre que des chiffres. Une utilisation possible consistait à composer des numéros de téléphone, mais il était beaucoup plus rapide et plus facile de composer les numéros à la main. Bien qu'Audrey n'ait pas eu une existence gracieuse, elle constitue toujours une étape importante dans la réussite humaine.

En rapport: Comment utiliser la saisie vocale sur Microsoft Word

1962: la boîte à chaussures d'IBM

Une décennie après Audrey, IBM s'est essayé au développement d'un système de reconnaissance vocale. À l'Exposition universelle de 1962, IBM a présenté un système de reconnaissance vocale nommé Showbox. Comme Audrey, son travail principal consistait à comprendre les chiffres 0-9, mais il pouvait également comprendre six mots: plus, moins, faux, total, sous-total et désactivé.

Shoebox était une machine mathématique capable de résoudre des problèmes arithmétiques simples. En ce qui concerne les commentaires, au lieu de lumières, Shoebox a pu imprimer les résultats sur papier. Cela le rendait utile comme calculatrice, bien que le locuteur doive toujours faire une pause entre chaque nombre/mot.

1971: l'identification automatique des appels d'IBM

Après Audrey et Shoebox, d'autres laboratoires dans le monde ont développé une technologie de reconnaissance vocale. Cependant, il n'a décollé que dans les années 1970, lorsqu'en 1971, IBM a mis sur le marché la première invention du genre. Il s'appelait le système d'identification automatique des appels. C'était le premier système de reconnaissance vocale qui a été utilisé sur le système téléphonique.

Les ingénieurs appelaient et étaient connectés à un ordinateur à Raleigh, en Caroline du Nord. L'appelant prononçait alors l'un des 5 000 mots de son vocabulaire et obtenait une réponse "parlée" en guise de réponse.

En rapport: Comment utiliser la dictée vocale sur Mac

1976: Harpie

Au début des années 1970, le département américain de la Défense s'intéresse à la reconnaissance vocale. La DARPA (Defence Advanced Research Projects Agency) a développé le programme Speech Understanding Research (SUR) en 1971. Ce programme a fourni un financement à plusieurs entreprises et universités pour soutenir la recherche et le développement de la reconnaissance vocale.

En 1976, à cause de SUR, l'Université Carnegie Mellon a développé le système Harpy. Il s'agissait d'une avancée majeure dans la technologie de reconnaissance vocale. Les systèmes jusque-là étaient capables de comprendre des mots et des nombres, mais Harpy était unique en ce sens qu'il pouvait comprendre des phrases complètes.

Il avait un vocabulaire d'environ 1 011 mots qui, selon une publication de B. Lowerre et R. Reddy, équivaut à plus d'un billion de phrases différentes possibles. La publication indique ensuite que Harpy pouvait comprendre les mots avec une précision de 93,77 %.

Les années 1980 ont été une période charnière pour la technologie de reconnaissance vocale, car c'est la décennie où la voix technologie de reconnaissance, car c'est la décennie où nous avons été initiés à la méthode de Markov cachée (HMM). La principale force motrice de HMM est probabilité.

Chaque fois qu'un système enregistre un phonème (le plus petit élément de la parole), il y a une certaine probabilité de ce que sera le prochain. HMM utilise ces probabilités pour déterminer quel phonème viendra le plus probablement ensuite et formera les mots les plus probables. La plupart des systèmes de reconnaissance vocale utilisent encore aujourd'hui le HMM pour comprendre la parole.

Les années 90: la reconnaissance vocale atteint le marché de la consommation

Depuis la conception de la technologie de reconnaissance vocale, il s'est engagé dans un voyage pour trouver une place sur le marché des consommateurs. Dans les années 1980, IBM a présenté un prototype d'ordinateur capable de faire de la dictée parole-texte. Cependant, ce n'est qu'au début des années 1990 que les gens ont commencé à voir des applications comme celle-ci dans leurs maisons.

En 1990, Dragon Systems a lancé le premier logiciel de dictée vocale. Il s'appelait Dragon Dictate, et il a été initialement publié pour Windows. Ce programme de 9 000 $ était révolutionnaire pour apporter la technologie de reconnaissance vocale aux masses, mais il y avait un défaut. Le logiciel utilisé dictée discrète, ce qui signifie que l'utilisateur doit faire une pause entre chaque mot pour que le programme les récupère.

En 1996, IBM a de nouveau contribué à l'industrie avec Medspeak. Il s'agissait également d'un programme de dictée vocale, mais il ne souffrait pas d'une dictée discrète comme Dragon Dictate. Au lieu de cela, ce programme pouvait dicter un discours continu, ce qui en faisait un produit plus convaincant.

En rapport: Comment utiliser Google Assistant avec des écouteurs

2010: Une fille nommée Siri

Tout au long des années 2000, la technologie de reconnaissance vocale a explosé en popularité. Il a été implémenté dans plus de logiciels et de matériel que jamais, et une étape cruciale dans l'évolution de la reconnaissance vocale a été Siri, l'assistant numérique. En 2010, une entreprise du nom de Siri a présenté l'assistant virtuel en tant qu'application iOS.

À l'époque, Siri était un logiciel impressionnant qui pouvait dicter ce que l'orateur disait et donner une réponse instruite et pleine d'esprit. Ce programme était si impressionnant qu'Apple a racheté l'entreprise la même année et a donné une refonte à Siri, le poussant vers l'assistant numérique que nous connaissons aujourd'hui.

C'est grâce à Apple que Siri a obtenu sa voix emblématique (voix de Susan Benett) et une foule de nouvelles fonctionnalités. Il utilise traitement du langage naturel pour contrôler la plupart des fonctions du système.

Les années 2010: les 4 Big 4 assistants numériques

À l'heure actuelle, quatre grands assistants numériques dominent la reconnaissance vocale et les logiciels supplémentaires.

Siri est présent dans presque tous les produits Apple: iPhones, iPods, iPads et la famille d'ordinateurs Mac.
Assistant Google est présent sur la plupart des 3 milliards et plus d'appareils Android sur le marché. De plus, les utilisateurs peuvent utiliser commandes sur de nombreux services Google, comme Google Home.
Amazon Alexa n'a pas beaucoup de plate-forme dédiée là où il vit, mais c'est toujours un assistant de premier plan. Il est disponible pour être téléchargé et utilisé sur les appareils Android, les appareils Apple. et même certains ordinateurs portables Lenovo
Bixby est l'entrée la plus récente de la liste des assistants numériques. C'est l'assistant numérique local de Samsung, et il est présent parmi les téléphones et les tablettes de l'entreprise.

Une histoire parlée

La reconnaissance vocale a parcouru un long chemin depuis l'époque d'Audrey. Il a fait de grands progrès dans plusieurs domaines; par exemple, selon Effacer le pont mobile, le domaine médical a bénéficié de chatbots à commande vocale pendant la pandémie en 2020. De la simple compréhension des chiffres à la compréhension des différentes variantes de phrases complètes, la reconnaissance vocale s'avère être l'une des technologies les plus utiles de notre époque moderne.

PartagerTweeterE-mail

Comment fonctionne la reconnaissance vocale ?

Nous utilisons la reconnaissance vocale tout le temps, mais comment ça marche ?

Rubriques connexes

La technologie expliquée
Siri
Assistant Google
Alexa
Bixby
Commandes vocales

A propos de l'auteur

Arthur Brown (31 articles publiés)

Arthur est un journaliste technique et musicien vivant en Amérique. Il travaille dans l'industrie depuis près d'une décennie, ayant écrit pour des publications en ligne telles que Android Headlines. Il a une connaissance approfondie d'Android et de ChromeOS. En plus d'écrire des articles d'information, il est également apte à rapporter des nouvelles technologiques.

Plus d'Arthur Brown

Abonnez-vous à notre newsletter

Rejoignez notre newsletter pour des conseils techniques, des critiques, des ebooks gratuits et des offres exclusives !

Cliquez ici pour vous abonner

About Technology - denizatm.com

La reconnaissance vocale est géniale, mais comment est-elle devenue si bonne ?

1952: Le système Audrey

1962: la boîte à chaussures d'IBM

1971: l'identification automatique des appels d'IBM

1976: Harpie

Les années 90: la reconnaissance vocale atteint le marché de la consommation

2010: Une fille nommée Siri

Les années 2010: les 4 Big 4 assistants numériques

Une histoire parlée

Abonnez-vous à notre newsletter

Catégories

Recent Post

En quoi la sécurité offerte via Java est-elle différente des mises à jour antivirus et du système d'exploitation sur un PC Windows?

Pourquoi mon ordinateur affiche-t-il une heure incorrecte après l'installation des mises à jour Windows?

Comment puis-je transférer un fichier vidéo de Facebook vers mon courrier électronique?