Il y a quelques mois à peine, si vous vouliez créer une image de quelque chose, vous deviez être capable de dessiner, de peindre ou d'utiliser l'un des outils de photoshop dont les autres ne cessent de parler. Après 2022, cependant, tout a changé, tout cela grâce à l'IA - oui, comme dans "l'intelligence artificielle".

Au lieu d'essayer de dominer le monde, les outils d'IA à vocation artistique peuvent transformer tout ce que vous leur décrivez en une image.

Venez avec nous alors que nous entrons dans le monde de la visualisation de texte alimentée par l'IA et voyez comment vous pouvez utiliser ces outils pour convertir vos pensées en images réelles en tapant simplement ce que vous avez en tête.

Dall-E: le côté artistique du GPT-3 d'OpenAI

Les premiers outils alimentés par l'IA qui sont devenus populaires étaient basés sur le GPT-3 d'OpenAI. L'une des raisons était l'ouverture du projet à l'extérieur, ce qui a conduit à des suggestions qui GPT-3 est l'avenir du travail créatif.

Aujourd'hui, vous pouvez utiliser les outils officiels que vous pouvez trouver sur

instagram viewer
Site bêta d'OpenAI ou des solutions tierces qui tirent parti de ses superpuissances linguistiques. Par exemple, vous pouvez demander à GPT-3 de rédiger un brouillon pour un message, de répondre à des questions simples ou même de réviser ou de traduire du texte.

En 2022, OpenAI a révélé que GPT-3 était tout aussi doué pour créer des images. Le projet DALL-E, une pièce de théâtre sur le film WALL-E de Pixar et le nom de Dali, utilise GPT-3 non pas pour travailler avec du texte mais comme moteur de création d'images.

Tout comme avec GPT-3 et le texte, DALL-E n'est pas vraiment un génie créatif, matérialisant des images à partir de rien. Au lieu de cela, il a été "formé" sur des millions d'images qui existent déjà en ligne. Ses pouvoirs d'intelligence artificielle résident dans l'analyse de ces images, en en prenant des éléments, en les peaufinant, en les transformant, en les ajustant et enfin en les combinant dans de nouvelles images.

Au moins, c'est une version simplifiée de ce qui se passe en arrière-plan. La plupart des gens ne se soucient que de ce qu'ils voient devant eux, et c'est une zone de texte où vous pouvez taper quelque chose et le voir se transformer en image après quelques minutes.

La réponse Imagen de Google

Google est l'un des trois premiers "acteurs" de la recherche sur l'IA. Pourtant, leurs progrès ne sont pas facilement perceptibles, et leurs implémentations dans des produits ne sont pas aussi accessibles que les offres d'OpenAI.

L'une des premières implémentations largement disponibles de Google AI était dans Google Docs et Gmail, sous la forme d'une saisie semi-automatique et de suggestions plus intelligentes, connues sous le nom de Smart Compose. Nous n'entrerons pas dans les détails puisque nous avons déjà couvert Smart Compose (et comment vous pouvez l'utiliser).

Lorsque ces fonctionnalités sont actives, les applications Web de Google comparent ce que l'utilisateur tape à ce que des millions d'autres ont écrit dans le passé. Ensuite, il suggère ce qu'ils ont tapé par la suite.

C'est la preuve que malgré ce que nous aimons croire, nous ne sommes pas si différents. Si 99 personnes sur 100 tapent "plus tard" après "à bientôt", c'est probablement ce que nous continuerons à taper aussi.

Nous avons tous utilisé une certaine forme de saisie semi-automatique, même depuis le système de texte prédictif T9 de l'ère "dumbphone". C'est pourquoi les outils d'intelligence artificielle de Google ne semblaient pas aussi intelligents que le GPT-3 d'OpenAI. Ils ne se sentaient pas autant plus utilisés qu'un meilleur système T9 amélioré pour le 21e siècle. Et c'est aussi pourquoi la révélation d'Imagen a été un peu un choc.

Comme un DALL-E sous stéroïdes, Imagen est un outil de visualisation de texte. Sur la base de ce qui est disponible aujourd'hui, Imagen peut produire des images "plus propres" et plus vives tout en sachant comment gérer des fonctionnalités avancées telles que la diffusion et la transparence.

Malheureusement, au moment de la rédaction, l'accès à Imagen reste restreint, nous n'avons donc pas pu l'essayer.

DALL-E Mini et ses amis: ouvert aux affaires

Vous ne pouvez pas encore accéder librement à DALL-E et Imagen. Pourtant, de nombreuses alternatives sont déjà disponibles si vous voulez vous amuser avec la génération d'images textuelles alimentée par l'IA.

En gardant à l'esprit que ce sont les premiers jours et que les résultats ou l'expérience utilisateur qu'ils offrent peuvent être loin d'être optimaux, il vaut toujours la peine de vérifier certains des éléments suivants.

Faire des mèmes avec Dall-E Mini

Grâce à une combinaison de résultats plus qu'adéquats et d'une interface conviviale, mais surtout, à sa large disponibilité, DALL-E mini est devenu l'un des visualiseurs de texte IA les plus populaires.

Loin d'être parfaits, les résultats de DALL-E mini peuvent parfois être plus abstraits que prévu.

D'autres fois, cela peut échouer à créer ce que vous aviez en tête, mais cela peut s'en rapprocher.

Après son explosion de popularité, les créateurs de DALL-E mini l'ont déplacé dans une nouvelle maison sous une nouvelle marque. Vous pouvez maintenant trouver la dernière version de DALL-E mini comme Craiyon sur son propre site.

Utiliser Craiyon aujourd'hui est aussi simple que de rechercher en ligne une image existante. Vous pouvez visiter son site, taper une description de votre image dans son champ de texte et appuyer sur Entrée. Au bout d'un moment, vous verrez les résultats sur votre écran.

Ce qui est frappant, c'est la qualité de Craiyon et des outils similaires pour imiter les styles visuels. Par exemple, nous lui avons demandé d'évoquer des images d'un chiot sur une planche à roulettes :

Ensuite, nous avons utilisé la phrase exacte mais ajouté un "style Pixar" après. Au bout d'un moment, Craiyon a montré une grille d'images plus "caricaturales", plus proches de ce que nous percevons comme les graphismes par lancer de rayons de Pixar dans leurs films bien-aimés.

Craiyon nous a donné des résultats encore meilleurs lorsque nous avons remplacé "style Pixar" par "style anime" dans la même invite.

L'anime est plus stylisé dans son apparence que les images plus réalistes de Pixar, ce qui semble avoir aidé Craiyon à produire des images presque prêtes à l'emploi.

S'amuser avec la diffusion latente

Le modèle de diffusion latente formé sur l'ensemble de données LAION-400M est un autre visualiseur de texte AI intéressant. Cependant, il est aussi plus compliqué dans son utilisation. Vous devez l'exécuter en ligne dans une machine virtuelle et jouer avec ses différents paramètres au lieu de simplement taper dans un champ de texte. Pourtant, c'est plus facile qu'il n'y paraît.

  1. Visiter le Espace collaboratif Google Latent Diffusion c'est actuellement sa maison.
  2. Faites défiler un peu vers le bas et notez le Rapide champ sous Paramètres. Remplacez l'invite par défaut par ce que vous voulez que votre image représente.
  3. Choisir Tout exécuter du Durée ou appuyez sur CTRL + F9.
  4. Si vous souhaitez pouvoir exporter les images produites directement depuis l'outil, répondez positivement lorsqu'on vous demande si vous souhaitez le lier à votre compte Google Drive. L'outil prend un certain temps pour terminer sa configuration et doit télécharger certains fichiers pendant le processus.

Augmenter les valeurs de Pas, Itérations, et Échantillons_en_parallèle, peut conduire à des résultats plus détaillés. Cependant, l'outil est extrêmement gourmand en ressources sur les serveurs de Google. Par conséquent, il peut se bloquer si vous augmentez trop ces valeurs ou si le processus de création d'une image particulière devient plus compliqué que prévu.

Alternatives intéressantes

Nous avons passé beaucoup de temps à tester DALL-E mini et Latent Diffusion. Notre méthode scientifique comportait deux parties distinctes. Tout d'abord, nous avons dû proposer des concepts qui pourraient être décrits avec précision comme des dingues. Ensuite, demandez à ces visualiseurs IA de les transformer en images. Plus souvent que prévu, ils ont réussi, se rapprochant de la configuration générale que nous avions envisagée.

Nous avons également essayé certaines des alternatives disponibles pour cet article. Nous attendons toujours l'accès aux autres. Certains de ceux qui valent le détour sont (sans ordre particulier):

  • À mi-parcours
  • MindsEye bêta
  • StarryAI
  • Rêver
  • Diffusion Disco

L'art généré par l'IA remplacera-t-il les arts visuels ?

L'abondance et la popularité sans cesse croissante des outils de génération d'images alimentés par l'IA amènent beaucoup à conclure que les arts visuels vont bientôt mourir. À quoi bon investir du temps et de l'énergie pour apprendre à dessiner ou à utiliser des logiciels compliqués pour visualiser des choses quand une IA peut le faire plus vite (et bientôt mieux) que vous ?

Si vous l'avez remarqué, ces outils sont tous "formés sur des ensembles de données". En clair, cela signifie qu'ils font ce qu'ils font grâce aux humains qui ont déjà fait la même chose auparavant.

C'est l'indice qui explique pourquoi ces outils ne peuvent pas remplacer l'art, la créativité et l'ingéniosité humains. Ce sont des mimiques, des réplicateurs intelligents. Sans les originaux produits par l'homme sur lesquels ils sont formés, ils ne pourraient produire aucun résultat.

Pourtant, c'est le moment présent, et nous admettons que nous ne savons pas ce que l'avenir nous réserve. Pour l'instant, les artistes visuels peuvent dormir en toute sécurité. Au rythme où l'IA évolue, cependant, de nombreux spécialistes du sujet s'accordent à dire qu'il ne s'agit pas de savoir si elle remplacera un jour le travail de personnes comme la vôtre. C'est seulement une question de quand.

Mais bon, tout n'est pas sombre. Pendant que Skynet se prépare à prendre nos emplois, nous pouvons au moins égayer notre humeur en créant sans effort des images de chiots sur des planches à roulettes !