La détection de phrases n'est qu'une partie du processus.
Crier "Ok Google" de l'autre côté de la pièce pour changer la musique ou éteindre les lumières d'une pièce incroyable, mais ce processus apparemment simple est alimenté par un réseau complexe de technologies travaillant derrière le scènes.
Presque tous les principaux assistants virtuels du marché ont une phrase d'appel que vous utilisez pour réveiller l'assistant et avoir une conversation. Mais comment les assistants vocaux savent-ils que vous leur parlez ?
Comment fonctionne la détection de phrases?
Comme mentionné ci-dessus, chaque assistant vocal a une "phrase de déclenchement" ou un mot de réveil que vous utilisez pour réveiller l'assistant et donner d'autres commandes. Le processus de détection de cette phrase est plus ou moins le même avec chaque assistant, à l'exception de petites nuances. Cela dit, ces nuances peuvent faire la différence entre dire avec désinvolture la commande de réveil et la crier plusieurs fois. fois seulement pour que l'assistant continue à dormir, ce qui peut parfois être très ennuyeux, surtout si vous êtes
utiliser votre assistant vocal pour vous aider à vous calmer.En général, la plupart des haut-parleurs "intelligents" ont un petit circuit dont le seul travail est de détecter la commande de réveil, puis de faire fonctionner le reste du matériel. La majeure partie du traitement est effectuée dans le cloud, mais la détection des phrases se fait sur l'appareil pour des raisons de confidentialité évidentes. La détection de phrases sur les téléphones fonctionne plus ou moins de la même manière.
Les détails sont pour la plupart secrets, mais ces systèmes de détection utilisent l'apprentissage automatique et les réseaux de neurones profonds (DNN) pour former des modèles d'IA afin de détecter votre voix et de former une clé. Cette clé est ensuite utilisée pour vérifier quand vous avez dit une phrase particulière, et tout le reste est envoyé au cloud pour un traitement ultérieur.
Assistant Google
Les téléphones prenant en charge la détection "OK Google" sont généralement équipés d'un système de détection de mots clés (KWS) qui détecte la phrase, puis envoie le reste de votre requête dans le cloud. Étant donné que les appareils mobiles ont une puissance de calcul limitée ainsi que des contraintes d'autonomie de la batterie, ces systèmes ne sont généralement pas aussi bons que ceux que vous trouverez sur les haut-parleurs Google Nest.
Ce système KWS intégré à l'appareil capte en continu l'audio des microphones de l'appareil et initie une connexion au serveur lorsqu'il détecte une phrase de déclenchement. Google utilise également la reconnaissance vocale automatique contextuelle (ASR) côté serveur pour améliorer la précision globale de son système KWS. Vous pouvez en savoir plus à ce sujet dans Document de recherche de Google [PDF].
Siri
Siri fonctionne de la même manière que Google Assistant concernant la détection "Hey Siri". Apple a été étonnamment ouvert sur le fonctionnement du système, qui implique un "très petit" reconnaissance vocale qui s'exécute en arrière-plan et n'écoute que ces deux mots. Ce détecteur utilise un DNN pour convertir le modèle acoustique de votre voix enregistré sur chaque instance en une distribution de probabilité sur les sons de la parole, générant essentiellement un score de confiance.
Votre iPhone ou Apple Watch le fait en transformant votre voix en un flux d'échantillons de forme d'onde à un taux de 16 000 par seconde. Celui-ci est ensuite réduit à une séquence d'images couvrant un spectre sonore d'environ 0,01 seconde. Ensuite, un total de 20 de ces trames sont transmises au modèle de détection, qui convertit ces modèles en probabilité.
Si le système détermine avec suffisamment de confiance que vous avez dit "Hey Siri", Siri se réveille et envoie le reste de la requête au cloud, où une analyse plus approfondie a lieu et quelle que soit l'action que vous avez demandée obtient effectué.
Bien sûr, des mesures supplémentaires ont été ajoutées pour garantir l'efficacité de la mémoire et de la batterie. Le processeur Always On (AOP) de votre iPhone a accès aux microphones de l'appareil (sur iPhone 6S et versions ultérieures) pour cette raison, et une petite partie de sa puissance de traitement est réservée pour exécuter le DNN. Apple se penche en profondeur sur l'ensemble du système sur son site Web d'apprentissage automatique, machinelearning.apple.
Alexa
Tout comme Google Assistant et Siri, Alexa n'héberge pas non plus la majeure partie de sa puissance de traitement sur l'un des haut-parleurs Echo que vous pouvez acheter. Au lieu de cela, les haut-parleurs utilisent ce qu'Amazon appelle la reconnaissance automatique de la parole (ASR), qui convertit essentiellement les mots prononcés en texte, permettant au système sous-jacent de les interpréter et d'agir en conséquence.
L'ASR constitue la base de base du fonctionnement d'Alexa. Encore une fois, il y a un système embarqué qui écoute les mots de réveil, dans ce cas, "Alexa", "Amazon", "Echo" ou "Ordinateur" et déclenche le reste du système lorsque le mot de réveil prédéterminé par l'utilisateur est détecté. Vous pouvez même réveillez votre appareil Alexa en utilisant "Hey Disney" si tu veux.
Comme Google Assistant, vous pouvez former le modèle d'IA sous-jacent d'Alexa pour mieux détecter votre voix. Ce processus implique la création d'une "clé" de base à laquelle le mot de réveil parlé est comparé, et lorsqu'une correspondance est trouvée, l'appareil répond en conséquence.
Les assistants vocaux sont-ils toujours à l'écoute?
Comme vous pouvez probablement déjà le deviner, oui, ils le sont. Il n'y a aucun moyen qu'ils soient capables de détecter les mots de réveil autrement. Cependant, vous n'avez pas encore besoin de jeter tous vos haut-parleurs intelligents en raison de problèmes de confidentialité.
Écouter tout ce que disent les utilisateurs, le renvoyer à un serveur distant et l'analyser (ou le stocker) nécessite d'énormes ressources matérielles et financières au point où cela n'a pas de sens d'un point de vue pratique perspective. Ajoutez à cela les énormes problèmes de confidentialité auxquels des entreprises comme Google, Apple et Amazon sont déjà confrontées, et l'idée n'a pas de sens.
Cela a également un impact considérable sur les performances et la durée de vie de la batterie des téléphones avec des fonctionnalités de détection de mots de réveil, notamment Google Pixels et iPhones. Si votre téléphone écoute en permanence ce que vous dites et renvoie cet audio à un serveur distant, il videra votre batterie et affectera les performances de l'appareil.
Qui a la détection de phrase la plus efficace et pourquoi?
Il n'est pas facile de comparer objectivement quel assistant virtuel a la meilleure détection de phrase objectivement car ils utilisent tous des implémentations légèrement différentes du même concept global. Cependant, Google semble avoir une détection de phrase plus cohérente en raison de la longueur d'avance de Google Assistant par rapport à Siri et Alexa.
Bien que les applications utilisant de grands modèles de langage (LLM) comme ChatGPT et Bing Chat deviennent courantes, Google Assistant maintient sa position comme l'un des plus des assistants virtuels populaires simplement parce qu'il est à portée de main sur chaque appareil Android, allant des téléviseurs intelligents aux systèmes stéréo de voiture et bien sûr, aux smartphones.
Siri et Alexa ont du rattrapage à faire dans ce département, mais en ce qui concerne la détection de phrases, ils ne sont pas si loin. Néanmoins, vous aurez plus de chances de réveiller l'assistant Google sur votre Pixel de l'autre côté de la pièce que vous ne le feriez avec Siri sur votre iPhone, bien que vous puissiez boostez les capacités de Siri avec le mode Super Siri. Étant donné qu'Alexa est principalement utilisée sur la gamme de haut-parleurs Echo d'Amazon, elle présente ici un léger avantage, étant donné que ces haut-parleurs sont conçus pour pouvoir capter la voix de l'utilisateur.
L'IA est aussi effrayante que pratique
Invoquer votre assistant IA avec juste votre voix peut être très pratique. Pour une fonctionnalité qui s'intègre parfaitement dans nos vies, il se passe beaucoup de choses dans les coulisses auxquelles la plupart d'entre nous ne pensent souvent pas.
Cela dit, cette commodité entraîne également le malaise de votre appareil qui écoute toujours ce que vous dites. Jusqu'à présent, les reconnaissances vocales sur l'appareil et les mots d'activation se situent entre ce que votre assistant virtuel entend et ce que vous dites.