Dall•E 2 d'OpenAI pourrait signifier que nous n'aurons plus jamais besoin de photos d'archives
Taper une phrase sur un scénario, tel qu’un utilisateur de Windows anxieux assis à son bureau voyant un avertissement de correctif, pourrait vous donner l’image dont vous avez besoin pour accompagner un article.
Dall•E 2 d'OpenAI, qui est devenu généralement disponible au public cette semaine, peut créer des images dans une variété de genres et de styles en tapant une phrase, dans ce cas, « Photo d'une personne avec des lunettes faisant un point à plusieurs personnes à une table de conférence dans une salle de réunion ».
Le domaine des faux objets continue d’être affiné par l’intelligence artificielle, le faux texte ayant été maîtrisé il y a quelques années avec le programme de traitement du langage naturel GPT-3 de la startup OpenAI.
Aujourd'hui, les images, qui avaient atteint un nombre substantiel de falsifications grâce à des programmes tels que le StyleGAN de Nvidia, introduit par Tero Karras et ses collègues de Nvidia en 2019, ont reçu un coup de pouce cet été avec l'annonce par OpenAI d'un nouveau programme de falsification d'images, DALL•E 2, qui s'appuie sur le premier DALL•E, sorti en janvier 2021. Il peut prendre une phrase que vous tapez et la convertir en image, avec de nombreuses façons de façonner l’image de sortie.
Cette semaine, OpenAI a supprimé la liste d’attente ; n'importe qui peut maintenant se rendre sur le site pour faire un tour avec DALL•E 2, à condition qu'il soit prêt à créer un compte sur le site Web d'OpenAI avec une adresse e-mail et un numéro de téléphone.
Le point fort de DALL•E 2, comme son prédécesseur, est de créer des images à partir d'un texte qu'une personne saisit dans un champ de la page Web. Tapez l’expression « un astronaute chevauchant un cheval dans un style photoréaliste », et une image apparaîtra à peu près sous cette forme : un rendu réaliste d’un personnage de profil dans un uniforme d’astronaute, chevauchant un cheval marchant contre ce qui semble être une image du cosmos.
Le travail est décrit dans un document de recherche des scientifiques d’OpenAI Aditya Ramesh et ses collègues, « Hierarchical Text-Conditional Image Generation with CLIP Latents », publié sur le serveur de pré-impression arXiv.
DALL•E 2 est ce que l’on appelle un encodeur-décodeur contrastif. Il est construit en compressant des images et leurs légendes dans une sorte de représentation abstraite et combinée, puis en les décompressant. Cette formation développe la capacité du programme à associer texte et image.
Le point principal de Ramesh et de ses collègues est que la façon dont la compression/décompression se produit permet de faire plus que simplement traduire entre le texte et l'image, elle permet d'utiliser des phrases pour façonner des aspects d'une image, comme l'ajout du terme « photoréaliste », ce qui produit quelque chose avec un certain réalisme.
Bien que les images soient encore un peu grossières, vous pouvez voir que DALL•E 2 a le potentiel de remplacer beaucoup d’illustrations commerciales et même de photographies d’archives. En tapant une phrase et un style, tel que « photo », vous pouvez générer une variété d’images qui peuvent convenir pour illustrer des articles.
Vous pouvez le constater par vous-même en l’essayant. La plupart des choses qui me viennent immédiatement à l’esprit sont des combos amusants. Par exemple, « Une baleine bleue et un chaton se liant d’amitié sur une plage, art numérique » produit le résultat attachant de style carte de vœux ci-dessous.
« Un rorqual bleu et un chaton se lient d’amitié sur une plage, art numérique »
Quatre versions sont proposées à la fois, et vous pouvez télécharger chacune d’entre elles au format PNG.
« Un rorqual bleu et un chaton se lient d’amitié sur une plage, art numérique »
Mais il est également possible d'obtenir un certain nombre d'images plus banales qui correspondent à un contexte de photographie d'archives. Taper la phrase « Un écrivain contributeur de ZDNET voyant l’avenir de la technologie dans ses propres articles par un flanc de montagne planant dans l’espace » produit une sorte d’image de science-fiction qui est proche de ce qui pourrait accompagner un article.
« Un écrivain contributeur de ZDNET voyant l’avenir de la technologie dans ses propres articles à flanc de montagne en vol stationnaire dans l’espace »
On peut ajouter l’expression « image réaliste » et obtenir quelque chose d’un peu plus lisse.
« Image réaliste d’un écrivain contributeur de ZDNET voyant l’avenir de la technologie dans ses propres articles à flanc de montagne planant dans l’espace. »
L’utilisation de l’expression « Photo d’un utilisateur d’ordinateur très anxieux fixant son écran d’ordinateur et voyant une alerte de correctif Windows » a produit un éventail délicieux d’images d’utilisateurs d’ordinateurs généralement craintifs.
« Photo d’un utilisateur d’ordinateur très anxieux fixant son écran d’ordinateur et voyant une alerte de correctif Windows »
La phrase peut être amplifiée avec des mots supplémentaires pour obtenir des résultats plus spécifiques, tels que « Photo d’un utilisateur d’ordinateur très anxieux à son bureau fixant son écran d’ordinateur et voyant une alerte de correctif Windows ».
« Photo d’un utilisateur d’ordinateur très anxieux à son bureau , fixant son écran d’ordinateur et voyant une alerte de correctif Windows. »
Une fois que vous commencez à vous attarder sur la photographie d'archives, vous constaterez que vous pouvez imaginer de nombreux scénarios à transformer en image. Par exemple, « Photo d’une personne avec des lunettes faisant un point à plusieurs personnes à une table de conférence dans une salle de réunion » donne une assez bonne sélection de ce qui ressemble à première vue à de vraies scènes de bureau.
« Photo d’une personne avec des lunettes faisant un point à plusieurs personnes à une table de conférence dans une salle de réunion »
Encore une fois, on peut être plus précis, en changeant les attributs de la scène avec quelques mots, tels que « Photo d’une personne avec des lunettes debout à côté d’un tableau noir dans une salle de conférence expliquant quelque chose à ses collègues ».
« Photo d’une personne avec des lunettes debout à côté d’un tableau noir dans une salle de conférence expliquant quelque chose à ses collègues »
Comme vous pouvez le voir, des éléments tels que les traits du visage sont généralement dégradés dans la sortie DALL•E 2.
En appliquant des termes d’artistes, de médias artistiques ou de style, on peut déplacer la même image du domaine de la photographie d’archives au domaine de l’illustration, comme dans la phrase « peinture de Francis Bacon d’un groupe de personnes dans une salle de conférence et d’une personne avec des lunettes debout à côté d’un tableau noir expliquant quelque chose ».
« Peinture de Francis Bacon d’un groupe de personnes dans une salle de conférence et d’une personne avec des lunettes debout à côté d’un tableau noir expliquant quelque chose. »
Une fois que vous avez créé un compte, OpenAI vous donne 50 « crédits », ce sont des requêtes gratuites au système, où chaque phrase saisie compte pour une demande. Une fois que vous avez utilisé les 50, vous pouvez soit attendre un mois et obtenir les 15 prochains crédits gratuits, soit acheter des crédits. Les crédits sont vendus par paquets de 115 pour 15 dollars, soit 13 cents par crédit.
Il est possible de perturber le programme. Certaines demandes peuvent être trop un mélange de réel et d’imaginaire pour être rendues de manière convaincante. Par exemple, une demande pour « des rats à la fourrure bleue prenant le contrôle de Times Square » produit une première tentative décente, mais l'élément fourrure donne à l'image une qualité bâclée et inégale qui ne fonctionne pas vraiment.
« Des rats à la fourrure bleue envahissent Times Square »
D’autres requêtes peuvent faire trébucher DALL•E 2 en raison du choix d’un seul mot.
La demande « un sac d’argent posé sur une chaise de jardin sur un porche surplombant le coucher de soleil » a généré des images complètement bizarres et sans rapport, telles qu’un gros plan d’ongles d’orteils et une image ambiguë qui semblait être des fleurs coincées dans un tapis.
« Un sac d’argent posé sur une chaise de jardin sur un porche surplombant le coucher de soleil. »
Le fait de substituer le mot « placé » à celui de « assis » a permis à DALL•E 2 de produire un résultat satisfaisant dans une image sur trois.
« Un sac d’argent posé sur une chaise de jardin sur un porche surplombant le coucher de soleil. »
Il se peut que le programme ne puisse pas trouver une combinaison appropriée d’éléments pour ce qui semble être un verbe actif, assis, lorsqu’il est combiné avec un objet inanimé, un sac.
En général, le programme semble avoir du mal avec certains aspects du lieu, comme « se tenir devant un chevalet ».
Les phrases qui ne sont pas des descriptions mais des questions ou des interjections semblent démarrer le système dans un mode aléatoire. Par exemple, « DALL•E 2 connaît-il son propre nom ? » est une expression qui produit plusieurs images de fleurs. C’est peut-être une réponse poétique, mais cela ressemble plus à un rejet de l’invite.
« DALL•E 2 connaît-il son propre nom ? »
Il y a quelques garde-fous mis en place par OpenAI, énoncés dans la politique de contenu publié, et ils seront utilisés pour éliminer automatiquement toute tentative de verboten. Par exemple, si vous tapez « Bill Gates, cofondateur de Microsoft, fume un cigare dans un appartement miteux avec des meubles en panne » ne sera pas généré. Au lieu de cela, un message d’erreur s’affiche indiquant que la demande enfreint la politique et vous dirige vers la page de la politique. Il s’agit probablement d’un cas de violation de la règle « Ne créez pas d’images de personnalités publiques ».
La même demande, substituant à une personnalité publique plutôt moins connue, Tiernan Ray, un écrivain contribuant à ZDNET, a généré une sélection d’images amusantes de personnes qui ne sont pas Tiernan Ray.
« Tiernan Ray fumant un cigare dans un appartement miteux aux meubles en panne »
De plus, le texte protégé par le droit d'auteur semble être protégé contre la violation massive. L'expression « un groupe de personnes traînant devant McDonald's » produit une scène assez appropriée, mais chaque résultat proposé a une légère modification de « McDonald's » pour que ce ne soit pas vraiment ce mot.
« Un tas de gens qui traînent devant McDonald's »
Quelle est la prochaine étape ? Le travail sur l’approche de base du texte-image se poursuit sur de nombreux fronts. L’une d’entre elles consiste à ajouter plus de complexité lexicale au programme. Par exemple, Chitwan Saharia et son équipe de Google Brain ont publié en mai leur travail sur « Imagen », un programme qui, selon eux, a un « degré de photoréalisme sans précédent ». L’astuce a consisté à utiliser un corpus beaucoup plus important de matériel linguistique pour entraîner le réseau.
Et il y a du travail qui est fait pour élargir la complexité du genre de choses qu’un programme peut faire. Par exemple, les scientifiques de Google Wenhu Chen et leurs collègues ont créé ce mois-ci un programme qui étend l'imagerie de Sahari et de son équipe, appelé « Re-imagen », qui combine l'idée de base de la compression du texte et de l'image avec un troisième élément, les résultats de recherche.
En ajoutant ce qu’ils appellent la « récupération », le programme est développé non seulement pour trouver une combinaison « sémantique » de mot et d’image, mais aussi pour rechercher dans les résultats de recherche sur Internet des combinaisons qui affineront le résultat. Ils affirment que les résultats sont de loin supérieurs à ceux d’Imagen et de DALL•E 2 dans la gestion de phrases rares et obscures telles que « Picarones est servi avec du vin », en référence au dessert péruvien à base de patate douce.