Publicité
Nous pouvons parler à presque tous nos gadgets maintenant, mais comment cela fonctionne-t-il exactement? Lorsque vous demandez "Quelle chanson est-ce?" ou dites "Call Mom", un miracle de la technologie moderne se produit. Et même si on a l'impression d'être à la pointe, cette idée de parler aux appareils remonte à des décennies - presque aussi loin que les jetpacks dans la science-fiction!
Aujourd'hui, l'essentiel de l'attention accordée à l'informatique basée sur la voix concerne les smartphones. Apple, Amazon, Microsoft et Google sont au sommet de la chaîne, chacun offrant sa propre façon de parler à l'électronique. Vous saviez qui ils étaient: Siri, Alexa, Cortana et l'être sans nom «Ok, Google». Ce qui pose une grande question…
Comment un appareil prend-il des mots prononcés et les transforme-t-il en commandes qu'il peut comprendre? Essentiellement, cela revient à faire correspondre les modèles et à faire des prédictions en fonction de ces modèles. Plus précisément, la reconnaissance vocale est une tâche complexe Modélisation acoustique et Modélisation du langage.
Modélisation acoustique: formes d'onde et téléphones
La modélisation acoustique est le processus consistant à prendre une forme d'onde de la parole et à l'analyser à l'aide de modèles statistiques. La méthode la plus courante pour cela est Modélisation de Markov cachée, qui est utilisé dans ce qu'on appelle modélisation de la prononciation pour décomposer la parole en composants appelés téléphones (à ne pas confondre avec les vrais appareils téléphoniques). Microsoft est un chercheur de premier plan dans ce domaine depuis de nombreuses années.
Modélisation de Markov cachée: états de probabilité
La modélisation de Markov cachée est un modèle mathématique prédictif où l'état actuel est déterminé en analysant la sortie. Wikipédia a un excellent exemple en utilisant deux amis.
Imaginez deux amis - un ami local et un ami distant - qui vivent dans des villes différentes. Un ami local veut comprendre le temps qu'il fait là où vit Remote Friend, mais Remote Friend veut seulement parler de ce qu'il a fait ce jour-là: marcher, faire du shopping ou nettoyer. La probabilité de chaque activité en fonction de la météo du jour.
Imaginez que ce sont les seules informations disponibles. Avec elle, Local Friend peut trouver des tendances dans la façon dont le temps a changé de jour en jour, et en utilisant ces tendances, elle peut commencer à faire des suppositions éclairées sur la météo d'aujourd'hui en fonction de l'activité de son amie hier. (Vous pouvez voir un schéma du système ci-dessus.)
Si vous voulez un exemple plus complexe, consultez cet exemple sur Matlab. En reconnaissance vocale, ce modèle compare essentiellement chaque partie de la forme d'onde à ce qui vient avant et à ce qui vient après, et à un dictionnaire de formes d'onde pour comprendre ce qui est dit.
Essentiellement, si vous émettez un "e" son, cela va le comparer aux sons les plus probables qui viennent généralement avant et après. Cela signifie peut-être une vérification par rapport au son «e», au son «at», etc. Lorsque le motif correspond correctement, il contient alors votre mot entier. Ceci est une simplification excessive, mais vous pouvez voir Toute l'explication de Microsoft ici.
Modélisation du langage: plus que du son
La modélisation acoustique aide beaucoup votre ordinateur à vous comprendre, mais qu'en est-il des homonymes et des variations régionales de prononciation? C'est là que la modélisation du langage entre en jeu. Google a mené de nombreuses recherches dans ce domaine, principalement en utilisant Modélisation N-gram.
Lorsque Google essaie de comprendre votre discours, il le fait sur la base de modèles dérivés de sa banque massive de transcriptions de recherche vocale et de YouTube. Toutes ces légendes de vidéos hilarement erronées ont en fait aidé Google à faire évoluer leurs dictionnaires. En outre, ils ont utilisé le défunt GOOG-411 pour recueillir des informations sur la façon dont les gens parlent.
Toute cette collection de langues a créé un vaste éventail de prononciations et de dialectes, ce qui en a fait un dictionnaire robuste de mots et de leur sonorité. Cela permet des correspondances qui ont un taux d'erreur considérablement réduit que la correspondance de force brute basée sur des probabilités brutes. Vous pouvez lire un bref article décrivant leurs méthodes ici.
Alors que Google est un leader dans ce domaine, d'autres modèles mathématiques sont en cours de développement, y compris l'espace continu modèles et modèles de langage positionnel, qui sont des techniques plus avancées nées de la recherche en intelligence artificielle. Ces méthodes sont basées sur la reproduction du genre de raisonnement que les humains font lorsqu'ils s'écoutent. Ceux-ci sont beaucoup plus avancés en termes de technologie derrière eux, mais aussi de mathématiques et de programmation nécessaires pour cartographier ces modèles.
Modélisation N-Gram: la probabilité rencontre la mémoire
La modélisation N-gram fonctionne sur la base des probabilités, mais elle utilise un dictionnaire de mots existant pour créer un arbre de branchement de possibilités, qui est ensuite lissé pour des raisons d'efficacité. D'une certaine manière, cela signifie que la modélisation N-gram élimine une grande partie de l'incertitude dans la modélisation de Markov cachée susmentionnée.
Comme indiqué ci-dessus, la force de cette méthode vient du fait qu’elle dispose d’un grand dictionnaire mots et usage, pas seulement primitif des sons. Cela donne au programme la capacité de faire la différence entre les homophones, comme «beat» et «betterave». C'est contextuel, ce qui signifie que lorsque vous parlez des scores de la nuit dernière, le programme ne tire pas de mots sur le bortsch.
Mais ces modèles ne sont en fait pas les meilleurs pour la langue, principalement en raison de problèmes de probabilités de mots dans des phrases plus longues. Lorsque vous ajoutez plus de mots à une phrase, ce modèle se détache un peu car vos premiers mots sont peu susceptibles d'avoir chargé tout le nécessaire pour votre pensée complète.
Cependant, il est simple et facile à mettre en œuvre, ce qui en fait un excellent partenaire pour une entreprise comme Google qui aime lancer des serveurs à des problèmes de calcul. Vous pouvez lire davantage sur N-gram Modelieng à la Université de Washingtonou vous pouvez regarder un lecture à Coursera.
Crier sur les nuages: applications et appareils
Quiconque utilise Siri connaît la frustration d'une connexion réseau lente. En effet, vos commandes à Siri sont envoyées sur le réseau pour être décodées par Apple. Cortana pour Windows Phone nécessite également une connexion réseau pour fonctionner correctement. En revanche, cependant, Echo d'Amazon n'est qu'un haut-parleur Bluetooth sans Internet.
Pourquoi la différence? Parce que Siri et Cortana ont besoin de serveurs robustes pour décoder votre discours. Cela pourrait-il être fait sur votre téléphone ou votre tablette? Bien sûr, mais vous tueriez vos performances et l'autonomie de la batterie dans le processus. Il est plus logique de décharger le traitement sur des machines dédiées.
Pensez-y de cette façon: votre commande est une voiture coincée dans la boue. Vous pourriez probablement le pousser vous-même avec suffisamment de temps et d'efforts, mais cela prendra des heures et vous laissera épuisé. Au lieu de cela, vous appelez l'assistance routière et ils sortent votre voiture en quelques minutes. L'inconvénient est que vous devez faire l'appel et l'attendre, mais c'est toujours plus rapide et moins contraignant.
Les modèles de bureau comme Nuance ont tendance à utiliser des ressources locales en raison du matériel plus puissant. Après tout, selon les mots de Steve Jobs, votre le bureau est un camion. (Ce qui rend un peu idiot OS X utilise serveurs pour son traitement.) Donc, lorsque vous avez besoin de traiter le langage et la voix, il est déjà suffisamment bien équipé pour le gérer seul.
D'un autre côté, Android permet aux développeurs d'inclure la reconnaissance vocale hors ligne dans leurs applications. Google aime prendre de l'avance sur la technologie, et vous pouvez parier que les autres plates-formes gagneront cette capacité à mesure que leur matériel deviendra plus puissant. Personne n'aime ça quand une mauvaise couverture ou une mauvaise réception lobote leur appareil.
Commencez à utiliser les commandes vocales maintenant
Maintenant que vous connaissez les concepts fondamentaux, vous devez jouer avec vos différents appareils. Essayez le nouveau saisie vocale dans Google Documents Comment la saisie vocale est la nouvelle meilleure fonctionnalité de Google DocsLa reconnaissance vocale s'est améliorée à pas de géant ces dernières années. Plus tôt cette semaine, Google a finalement introduit la saisie vocale dans Google Documents. Mais est-ce correct? Découvrons-le! Lire la suite . Comme si la suite bureautique Web n'était pas déjà suffisamment puissante, la commande vocale vous permet de dicter et de formater complètement vos documents. Cela étend la puissante technologie qu'ils ont déjà conçue pour Chrome et Android.
Vous pouvez également configurer votre Mac pour utiliser les commandes vocales Comment utiliser les commandes vocales sur votre Mac Lire la suite et configurer votre Amazon Echo avec paiement automatisé Comment Amazon Echo peut faire de votre maison une maison intelligenteLa technologie de la maison intelligente en est encore à ses débuts, mais un nouveau produit d'Amazon appelé "Echo" pourrait aider à l'intégrer dans le courant dominant. Lire la suite . Vivez dans le futur et profitez de parler à vos gadgets - même si vous commandez simplement plus de serviettes en papier. Si vous êtes accro aux smartphones, nous avons également des tutoriels pour Siri 8 choses que vous ne réalisiez probablement pas que Siri pourrait faireSiri est devenu l'une des fonctionnalités déterminantes de l'iPhone, mais pour de nombreuses personnes, il n'est pas toujours le plus utile. Bien que cela soit dû en partie aux limites de la reconnaissance vocale, la bizarrerie de l'utilisation ... Lire la suite , Cortana 6 choses les plus cool que vous pouvez contrôler avec Cortana dans Windows 10Cortana peut vous aider à passer les mains libres sur Windows 10. Vous pouvez la laisser rechercher vos fichiers et le Web, faire des calculs ou consulter les prévisions météorologiques. Ici, nous couvrons certaines de ses compétences les plus cool. Lire la suite , et Android OK, Google: 20 choses utiles que vous pouvez dire sur votre téléphone AndroidGoogle Assistant peut vous aider à accomplir de nombreuses tâches sur votre téléphone. Voici tout un tas de commandes Google OK basiques mais utiles à essayer. Lire la suite .
Quelle est votre utilisation préférée de la commande vocale? Faites le nous savoir dans les commentaires.
Crédits image: T-flex via Shutterstock, Terencehonles via Wikimedia Foundation, Arizona State, Cienpies Design via Shutterstock
Michael n'a pas utilisé de Mac lorsqu'ils étaient condamnés, mais il peut coder en Applescript. Il est diplômé en informatique et en anglais; il écrit sur Mac, iOS et les jeux vidéo depuis un moment maintenant; et il est un singe informatique de jour depuis plus d'une décennie, spécialisé dans les scripts et la virtualisation.