La musique Deepfake imite le style d'un artiste particulier, y compris sa voix. Comment est-il possible que cela sonne si réel ?
Pendant longtemps, la musique a pu éviter le monde des deepfakes car il était tout simplement trop compliqué de synthétiser la voix de quelqu'un. Tout cela a changé avec les progrès de la technologie de l'IA. Il en est résulté des clones de voix d'artistes célèbres qui peuvent être utilisés pour produire de nouvelles pistes vocales.
Les outils d'intelligence artificielle devenant de plus en plus accessibles au commun des mortels, la musique deepfake est un problème croissant. Voici ce que c'est et comment il est créé.
L'évolution de la musique Deepfake
Lorsque vous entendez votre artiste préféré chanter sur Spotify ou YouTube, vous ne pensez pas que cela pourrait être faux, mais les progrès de l'IA en ont fait une réalité. Outre les fausses images et vidéos, il existe également de la musique deepfake.
Les outils d'IA peuvent reproduire fidèlement la voix chantée d'une personne en entraînant un modèle d'IA sur des échantillons audio de sa voix. Créés par des fans de l'artiste ou des fans de la technologie de l'IA, de plus en plus de personnes tentent de créer des sosies vocaux.
Les gens essaient de synthétiser la voix à l'aide d'un ordinateur depuis des années, remontant à 1961 lorsque l'IBM 7094 a été le premier ordinateur à chanter. Vous pouvez entendre le voix générée par ordinateur chantant Daisy Bell dans un clip YouTube et essayez d'imaginer à quel point ce moment était incroyable.
Avance rapide vers le 21e siècle et la technologie de l'IA a amélioré la qualité de la voix synthétisée et nous a permis de faire des choses que la plupart d'entre nous n'aurions jamais cru possibles jusqu'à présent, comme le clonage de la voix des gens.
Jetez un œil à ce clip de Roberto Nickson transformant sa voix en artiste et rappeur Kanye West. Regarder la vidéo est étrange, ça ressemble vraiment à Kanye, mais c'est aussi inconfortable à regarder. Sans trop réfléchir à ce que l'artiste pourrait penser ou ressentir, et sans permission, cela pourrait être considéré comme s'appropriant la voix de quelqu'un.
Contrairement à l'interprétation informatique de Daisy Bell, le clonage vocal de l'IA est capable de reproduire la ressemblance exacte de la voix de quelqu'un, qui comprend toutes les différences subtiles de timbre qui nous aident à identifier la voix unique de quelqu'un profil. Cependant, sans licence et sans autorisation, la musique deepfake présente de sérieux problèmes, sur lesquels nous reviendrons plus tard.
Comment les chansons Deepfake sont créées
Différentes méthodes sont utilisées pour créer des chansons deepfake, mais beaucoup d'entre elles utilisent la technologie de l'IA. Des projets open source comme Projet SoftVC VITS Singing Voice Conversion sur GitHub, par exemple, ont développé un modèle d'IA qui fait ce que son nom indique: convertit un échantillon audio en une voix chantée.
Ce modèle prend un fichier audio existant de quelqu'un qui chante et le convertit en la voix de quelqu'un d'autre. Des éléments tels que les paroles et le rythme de la voix d'origine sont conservés, mais le ton, le timbre et les qualités vocales personnelles sont convertis en la voix spécifiée par l'ensemble de données d'entraînement.
Gardez à l'esprit que d'autres parties de la chanson peuvent toujours être produites manuellement, comme la création de rythmes et de mélodies dans le même style et genre que l'artiste original.
Pour créer un deepfake de la voix de Kanye West, un ensemble de données tiers devait être entré dans le modèle SoftVC VITS, qui inclurait des échantillons de la voix réelle de Kanye. Le fichier contenant l'ensemble de données a depuis été supprimé par l'auteur, ce qui n'est pas surprenant compte tenu du territoire juridique trouble qui pourrait venir avec des ensembles de données non autorisés.
Bien qu'il n'ait pas été transformé en une application commerciale, vous pouvez trouver une version du Modèle SoftVC VITS sur Google Collab c'est plus convivial.
Jusqu'à ce que les limites éthiques et juridiques soient mises en place, il est possible que des applications de clonage de voix plus faciles à utiliser soient pop up - pas trop différent de l'application Drayk.it qui transformait une description textuelle en chansons inspirées de l'artiste Canard. Il a ensuite été fermé.
Certains autres outils utilisés pour créer de la musique deepfake incluent de grands modèles de langage comme ChatGPT, qui peut être utilisé pour écrire des paroles dans le style d'un artiste célèbre; et Jukebox d'OpenAI et MusicLM de Google, qui sont des modèles d'IA génératifs capables de créer de la musique sous forme audio brute à partir de rien.
Peux-tu entendre la différence?
Un morceau créé par un utilisateur anonyme appelé Ghostwriter est devenu viral sur TikTok en avril 2023, en grande partie parce qu'il comportait des paroles chantées par les artistes Drake et The Weeknd. Bien sûr, ce n'étaient pas les vraies voix des artistes, mais des fausses.
Si la voix n'avait pas été une si bonne copie de l'original, cela n'aurait peut-être pas été un succès. En creusant un peu, vous pouviez savoir assez rapidement si c'était la vraie affaire ou non, mais en utilisant uniquement vos oreilles, vous ne pouviez que deviner si c'était authentique.
Si tu veux identifier une image générée par l'IA il y a au moins quelques aberrations visuelles que vous pourriez rechercher. En ce qui concerne l'audio, des signes tels que l'audio basse fidélité ou les problèmes dans la piste ne signifient pas grand-chose car ce sont des choix créatifs utilisés tout le temps dans la production musicale.
Ce qui est encore plus intéressant, c'est que beaucoup de gens aiment vraiment la chanson, même après avoir découvert qu'il ne s'agissait pas des vraies voix de Drake ou de The Weeknd. Les admirateurs ont souligné que tout n'était pas simplement généré avec l'IA, et que de véritables compétences et du travail ont été nécessaires pour écrire les paroles, composer les rythmes et assembler le tout.
Le morceau est arrivé sur Spotify et YouTube avant d'être retiré dans les jours qui ont suivi, mais pas avant que les fans aient téléchargé la chanson au format mp3. Vous pouvez toujours trouver des copies de la chanson en ligne si vous recherchez "Heart On My Sleeve, Drake ft. Le weekend".
Bientôt, il deviendra presque impossible de faire la différence entre les clones vocaux générés par l'IA et la vraie voix humaine. Dans cet esprit, les gens se demandent s'il s'agit en premier lieu d'une bonne utilisation de la technologie de l'IA, ou même d'une utilisation légale de celle-ci.
Problèmes avec Deepfake Music
D'une part, les gens aiment écouter des mashups faits par des fans de leurs artistes préférés et respectent la créativité qui en fait une réalité. Mais la possibilité d'avoir des clones vocaux repose en premier lieu sur des ensembles de données qui peuvent ou non être autorisés.
Sans autorisation, des échantillons de la voix d'une personne sont collectés dans un ensemble de données qui est ensuite utilisé pour former un modèle de conversion vocale IA. C'est similaire au problème rencontré par les artistes qui souhaitent supprimer leurs images des ensembles de données d'entraînement qui sont utilisés pour former des générateurs d'images AI comme Dall-E ou Midjourney.
La loi sur le droit d'auteur n'est pas non plus tout à fait prête à traiter la musique deepfake. En 2020, l'artiste Jay-Z a échoué en essayant de forcer YouTube à supprimer l'audio généré par l'IA de lui rappant des lignes du soliloque "To Be or Not to Be" de William Shakespeare.
Lorsqu'une chanson deepfake est téléchargée sur Spotify ou YouTube, il y a aussi la question de savoir qui gagne de l'argent. Devriez-vous être en mesure de gagner de l'argent sur une chanson qui copie presque exactement la voix de quelqu'un d'autre ?
Houx Herndon est une artiste qui a essayé de créer un système permettant aux gens de la rémunérer en échange de l'utilisation de son modèle vocal pour créer une œuvre originale. Alors que d'autres artistes comme Nick Cave ont prononcé contre l'IA, en écrivant:
Les chansons naissent de la souffrance, je veux dire par là qu'elles sont fondées sur la lutte humaine complexe et interne de la création et, pour autant que je sache, les algorithmes ne ressentent rien.
Parfois, Le texte généré par l'IA peut manquer de créativité dans l'ensemble, ils sont toujours affichés en ligne. L'IA pourrait donner lieu à beaucoup de mauvaise musique qui n'a nécessité que très peu d'efforts.
Trouver un équilibre entre la musique et l'IA
La musique Deepfake est créée à l'aide d'outils d'IA et de modèles d'IA formés sur des ensembles de données non autorisés. Certains modèles sont open-source et librement accessibles, tandis que d'autres tentatives ont été faites pour les regrouper dans une application conviviale.
Alors que de plus en plus de gens mettent la main sur des modèles ou des applications de musique deepfake, il convient de réfléchir à l'impact sur l'artiste. Obtenir le consentement pour les ensembles de données de formation et la rémunération de l'artiste ne sont que quelques-uns des problèmes qui pèsent sur la technologie musicale de l'IA.