MusicLM de Google semblait prometteur avec sa capacité à générer de la musique à partir d'invites de texte. Mais après l'avoir mis à l'épreuve, il n'a pas tout à fait livré.
En janvier 2023, Google a annoncé MusicLM, un outil d'IA expérimental qui pourrait générer de la musique basée sur des descriptions textuelles. Parallèlement à la nouvelle, Google a publié un document de recherche époustouflant pour MusicLM qui a laissé de nombreuses personnes éblouis par la capacité de créer de la musique à partir de rien.
Étant donné une invite de texte, le modèle promettait de produire une musique haute fidélité qui livrait toutes sortes de descriptions, du genre à l'instrument, en passant par des légendes abstraites décrivant des œuvres d'art célèbres. Maintenant que MusicLM est ouvert au public, nous avons décidé de le tester.
La tentative de Google de créer un générateur de musique AI
Transformer une invite de texte comme "relaxing jazz" en une piste prête à jouer est sans doute le Saint Graal des expériences en musique AI. Semblable aux célèbres générateurs d'images AI comme Dall-E ou Midjourney, vous n'avez pas besoin d'avoir un minimum de savoir-faire musical pour produire une piste qui a une mélodie et un rythme.
En mai 2023, ceux qui se sont inscrits à AI Test Kitchen de Google ont pu essayer la démo pour la première fois. Accueilli par une page Web conviviale et quelques règles directrices - électroniques et classiques les instruments fonctionnent le mieux, et n'oubliez pas de spécifier une "ambiance" - produire un extrait de musique est incroyablement facile.
La vitesse est l'une des rares choses que MusicLM offre vraiment, aux côtés d'échantillons relativement haute fidélité. Cependant, le véritable test ne devait pas être mesuré avec un chronomètre seul. MusicLM peut-il produire de la vraie musique écoutable basée sur quelques mots? Pas exactement (nous y reviendrons sous peu).
Comment utiliser MusicLM dans la cuisine de test d'IA de Google
Utiliser MusicLM est simple, vous pouvez vous inscrire sur la liste d'attente pour La cuisine de test d'IA de Google si vous voulez essayer.
Sur l'application Web, vous verrez une zone de texte dans laquelle vous pourrez composer une invite de quelques mots à quelques phrases décrivant le type de musique que vous souhaitez entendre. Pour de meilleurs résultats, Google vous conseille d'être "très descriptif", ajoutant que vous devriez essayer d'inclure l'ambiance et l'émotion de la musique.
Lorsque vous êtes prêt, appuyez sur Entrée pour démarrer le traitement. Dans environ 30 secondes, deux extraits audio seront disponibles pour que vous puissiez les auditionner. Parmi les deux, vous avez la possibilité d'attribuer un trophée au meilleur échantillon qui correspond à votre invite, ce qui aide à son tour Google à former le modèle et à améliorer sa sortie.
À quoi ressemble MusicLM
Les humains font de la musique depuis au moins 40 000 ans sans savoir avec certitude si la musique est venue avant, après ou en même temps que le développement du langage. Donc, à certains égards, il n'est pas surprenant que MusicLM n'ait pas tout à fait déchiffré le code de cet ancien art universel.
Document de recherche MusicLM de Google a suggéré que MusicLM pourrait générer de la musique à partir de légendes appartenant à des œuvres d'art célèbres, et suivre des instructions telles que changer de genre ou d'ambiance de manière fluide en suivant une séquence de différents instructions.
Avant de passer à de telles commandes, cependant, nous avons constaté que MusicLM avait plusieurs problèmes fondamentaux à surmonter en premier.
Difficulté à suivre le tempo
Le travail le plus fondamental de tout musicien est simplement de jouer dans le temps. En d'autres termes, respectez le tempo. Étonnamment, ce n'est pas quelque chose que MusicLM peut faire 100% du temps.
En fait, en utilisant la même invite 10 fois, ce qui produit 20 morceaux de musique, seuls trois étaient dans le temps. Les 17 échantillons restants étaient plus rapides ou plus lents que le tempo spécifié qui était écrit en "battements par minute", un terme largement utilisé pour décrire la musique.
Dans cet exemple, nous avons utilisé l'invite "piano classique solo joué à 80 battements par minute, paisible et méditatif". En écoutant de plus près, la musique s'accélérait ou ralentissait souvent dans la petite longueur de l'échantillon.
La musique manquait également de rythme fort et sonnait comme si quelqu'un avait frappé au milieu de la pièce. Que ce soit intentionnel ou non, il est difficile de juger si MusicLM peut réellement composer un début ou une fin appropriée pour un morceau de musique en plus de coller au rythme.
Sélection aléatoire d'instruments
Peut-être que MusicLM n'avait pas encore appris à jouer dans un timing strict, alors nous sommes passés à un autre paramètre musical commun. Nous voulions voir s'il accepterait notre demande pour certains instruments.
Nous avons écrit plusieurs invites différentes qui incluaient des descriptions telles que « Synthétiseur solo » et « Guitare basse solo ». D'autres étaient des ensembles plus importants comme "String quartet" ou "Jazz band". Dans l'ensemble, cela semblait être 50/50 de chances que vous obteniez ce que vous demandiez.
Une théorie est que le modèle associe certains instruments à des genres musicaux populaires. Prenez, par exemple, l'invite "Synthétiseur solo, progression d'accords. Vif et optimiste". Au lieu d'obtenir un son de synthétiseur par lui-même, MusicLM a produit une piste électronique complète avec batterie et basse.
Il est possible que le modèle n'ait tout simplement pas eu suffisamment de données et suffisamment de formation pour comprendre la demande spécifique d'un instrument.
Les voix sont hors de l'équation
Selon les restrictions de l'époque, le modèle ne produirait pas de musique contenant des voix. Les épineux problèmes de droits d'auteur et les bugs vocaux de MusicLM est probablement un facteur expliquant pourquoi Google a choisi de jouer la sécurité en définissant cette limitation.
Mais après avoir expérimenté MusicLM pendant un certain temps, nous avons réalisé que le contrôle de Google sur la sortie du modèle n'était pas exactement à toute épreuve. Curieusement, une invite comme "guitare acoustique" produisait une piste contenant des voix fantomatiques en arrière-plan qui semblaient étouffées et distantes.
Bien que ce ne soit pas un phénomène courant, cela vous laisse vous interroger sur la capacité de MusicLM à créer des voix convaincantes en premier lieu.
Avec des logiciels comme VOCALOID et Synthesizer V ouvrant la voie à Technologie de synthèse vocale assistée par IA, omettre les voix du modèle actuel nous laisse nous demander s'il n'est pas encore assez bon pour rivaliser avec la technologie existante. MusicLM pourrait bien avoir encore un long chemin à parcourir avant que les musiciens ne chantent ses louanges.
L'avenir des générateurs de musique IA
Bien que MusicLM ait fait progresser la technologie musicale IA générative, il doit retourner à l'école et apprendre quelques choses de plus avant de pouvoir entreprendre des travaux pratiques dans l'industrie de la musique.
Auparavant, la meilleure tentative de musique IA générative était un modèle appelé JukeboxAI par OpenAI. Ce n'était pas exactement dans un état prêt à l'emploi, et il a fallu neuf heures énormes pour rendre une seule minute de musique.
Pour vos efforts, vous étiez susceptible de récupérer une piste vraiment extraterrestre criblée de distorsion audio et d'artefacts. En plus, tu n'allais pas t'ennuyer écouter les créations bizarres que Jukebox évoque.
À la lumière de cela, MusicLM a fait des progrès significatifs vers un générateur de musique AI convivial. Nous pourrions presque pardonner au modèle ses sorties aléatoires lorsque vous arrêtez de penser à la complexité de générer de la musique sous forme audio brute.
Après avoir mis le modèle au travail, cependant, MusicLM se sent à moitié cuit par rapport à ce que Google a publié dans son document de recherche initial. Il est rare qu'un générateur d'image AI se trompe sur l'image d'une Apple, de même qu'un générateur de musique AI devrait avoir quelques notions de base comme le tempo et les instruments.
MusicLM de Google ne répond pas aux attentes
Alors que les entreprises technologiques se battent pour se surpasser sur le front de l'IA, MusicLM a l'impression d'être entré dans des essais publics avant d'être prêt. Au lieu de bien comprendre les fondamentaux, le modèle semble adopter une approche beaucoup plus vague et subjective de la production de musique.
Google peut vous encourager à être précis avec votre invite, mais il ne peut pas bien gérer le tempo, et vous n'êtes pas assuré d'obtenir les instruments que vous avez demandés à chaque fois. MusicLM peut être intéressant et une bonne démonstration des avancées puissantes de l'IA, mais si la musique est l'objectif final, il reste encore un long chemin à parcourir.