L'intelligence artificielle peut ressembler au président. Ou cela peut ressembler à toi ou moi. Alors, quel risque de cybersécurité le logiciel de clonage de voix IA pose-t-il ?
L'intelligence artificielle (IA) est une technologie puissante qui promet de transformer nos vies. Cela n'a jamais été aussi clair qu'aujourd'hui, lorsque des outils puissants sont disponibles pour toute personne disposant d'une connexion Internet.
Cela inclut les générateurs de voix IA, des logiciels avancés capables d'imiter la parole humaine avec une telle compétence qu'il peut être impossible de faire la distinction entre les deux. Qu'est-ce que cela signifie pour la cybersécurité ?
Comment fonctionnent les générateurs de voix IA?
La synthèse vocale, le processus de production artificielle de la parole humaine, existe depuis des décennies. Et comme toute technologie, elle a subi de profondes mutations au fil des années.
Ceux qui ont utilisé Windows 2000 et XP se souviendront peut-être de Microsoft Sam, la voix masculine de synthèse vocale par défaut du système d'exploitation. Microsoft Sam a fait le travail, mais les sons qu'il produisait étaient robotiques, rigides et non naturels. Les outils dont nous disposons aujourd'hui sont considérablement plus avancés, en grande partie grâce au deep learning.
L'apprentissage en profondeur est un méthode d'apprentissage automatique qui est basé sur des réseaux de neurones artificiels. Grâce à ces réseaux de neurones, l'IA moderne est capable de traiter des données presque comme les neurones du cerveau humain interprètent les informations. C'est-à-dire que plus l'IA ressemble à un humain, mieux elle émule le comportement humain.
Voilà, en un mot, comment fonctionnent les générateurs de voix IA modernes. Plus ils sont exposés à des données vocales, plus ils deviennent aptes à imiter la parole humaine. En raison des progrès relativement récents de cette technologie, les logiciels de synthèse vocale à la pointe de la technologie peuvent essentiellement reproduire les sons qu'ils reçoivent.
Comment les acteurs de la menace utilisent les générateurs de voix IA
Sans surprise, cette technologie est utilisée abusivement par les acteurs de la menace. Et pas seulement des cybercriminels au sens typique du terme, mais aussi par des agents de désinformation, des escrocs, des spécialistes du marketing black hat et des trolls.
Au moment où ElevenLabs a publié une version bêta de son logiciel de synthèse vocale en janvier 2023, des trolls d'extrême droite sur le forum 4chan ont commencé à en abuser. À l'aide de l'IA avancée, ils ont reproduit les voix d'individus comme David Attenborough et Emma Watson, donnant l'impression que les célébrités se lançaient dans des tirades viles et haineuses.
Comme Vice rapporté à l'époque, ElevenLabs a concédé que les gens utilisaient mal son logiciel, en particulier le clonage de la voix. Cette fonctionnalité permet à quiconque de « cloner » la voix d'une autre personne; tout ce que vous avez à faire est de télécharger un enregistrement d'une minute et de laisser l'IA faire le reste. Vraisemblablement, plus un enregistrement est long, meilleure est la sortie.
En mars 2023, une vidéo virale TikTok a attiré l'attention de Le New York Times. Dans la vidéo, le célèbre podcasteur Joe Rogan et le Dr Andrew Huberman, un invité fréquent de The Joe Rogan Experience, ont été entendus discuter d'une boisson à la caféine "stimulant la libido". La vidéo donnait l'impression que Rogan et Huberman approuvaient sans équivoque le produit. En réalité, leurs voix ont été clonées à l'aide de l'IA.
À peu près à la même époque, la Silicon Valley Bank, basée à Santa Clara, en Californie, s'est effondrée en raison d'erreurs de gestion des risques et d'autres problèmes, et a été reprise par le gouvernement de l'État. Il s'agissait de la plus grande faillite bancaire aux États-Unis depuis la crise financière de 2008, elle a donc envoyé des ondes de choc sur les marchés mondiaux.
Ce qui a contribué à la panique, c'est un faux enregistrement audio du président américain Joe Biden. Dans l'enregistrement, Biden a apparemment été entendu avertir d'un "effondrement" imminent et ordonner à son administration d'"utiliser toute la force des médias pour calmer le public". Les vérificateurs de faits comme PolitiFact n'ont pas tardé à démystifier le clip, mais il est probable que des millions de personnes l'aient entendu à ce moment-là.
Si les générateurs de voix IA peuvent être utilisés pour se faire passer pour des célébrités, ils peuvent également être utilisés pour se faire passer pour des personnes ordinaires, et c'est exactement ce que les cybercriminels ont fait. Selon ZDNet, des milliers d'Américains tombent dans des escroqueries connues sous le nom de vishing ou hameçonnage vocal chaque année. Un couple de personnes âgées a fait la une des journaux nationaux en 2023 lorsqu'il a reçu un appel téléphonique de son "petit-fils", qui prétendait être en prison et demandait de l'argent.
Si vous avez déjà mis en ligne une vidéo YouTube (ou si vous êtes apparu dans une vidéo), participé à un grand appel de groupe avec des personnes que vous ne connaissez pas savez ou avez téléchargé votre voix sur Internet d'une manière ou d'une autre, vous ou vos proches pourriez théoriquement être en danger. Qu'est-ce qui empêcherait un escroc de télécharger votre voix sur un générateur d'IA, de la cloner et de contacter votre famille ?
Les générateurs de voix IA perturbent le paysage de la cybersécurité
Il n'est pas nécessaire d'être un expert en cybersécurité pour reconnaître à quel point l'IA peut être dangereuse entre de mauvaises mains. Et s'il est vrai que la même chose peut être dite pour toutes les technologies, l'IA est une menace unique pour plusieurs raisons.
D'une part, il est relativement nouveau, ce qui signifie que nous ne savons pas vraiment à quoi nous attendre. Les outils d'IA modernes permettent aux cybercriminels d'étendre et d'automatiser leurs opérations d'une manière sans précédent, tout en profitant de l'ignorance relative du public en la matière. En outre, l'IA générative permet aux pirates ayant peu de connaissances et de compétences de créer un code malveillant, créer des sites frauduleux, diffuser du spam, écrire des e-mails de phishing, générer des images réalistes, et produire des heures interminables de faux contenus audio et vidéo.
Fondamentalement, cela fonctionne dans les deux sens: l'IA est également utilisée pour protéger les systèmes, et le sera probablement pendant des décennies. Il ne serait pas déraisonnable de supposer que ce qui nous attend est une sorte de course aux armements IA entre cybercriminels et l'industrie de la cybersécurité, étant donné que les capacités défensives et offensives de ces outils sont intrinsèquement égal.
Pour la personne moyenne, l'avènement de l'IA générative généralisée appelle à un changement radical repenser les pratiques de sécurité. Aussi excitante et utile que puisse être l'IA, elle peut à tout le moins brouiller la frontière entre ce qui est réel et ce qui ne l'est pas et, au pire, exacerbe les problèmes de sécurité existants et crée un nouvel espace de manœuvre pour les acteurs de la menace dans.
Les générateurs de voix montrent le potentiel destructeur de l'IA
Dès que ChatGPT est arrivé sur le marché, les discussions sur la réglementation de l'IA se sont intensifiées. Toute tentative visant à limiter cette technologie nécessiterait probablement une coopération internationale à un degré que nous n'avons pas vu depuis des décennies, ce qui la rend peu probable.
Le génie est sorti de la bouteille, et le mieux que nous puissions faire est de nous y habituer. Cela, et espérons que le secteur de la cybersécurité s'adaptera en conséquence.