MidJourney contre DALL-E 3 : combat rapide en tête-à-tête
Fini les petits accidents heureux
La technologie de génération d’images IA s’améliore si rapidement qu’en quelques semaines ou mois seulement, la qualité et les fonctionnalités possibles peuvent être totalement différentes. DALL-E 3 apporte une avancée technologique, mais comment se compare-t-il à MidJourney ?
Quelle est la particularité du DALL-E 3 ?
Nous avons déjà couvert en détail l'évolution et les capacités de MidJourney, et jusqu'à présent, il s'agit du générateur d'images incontournable pour la meilleure production artistique adaptée à une utilisation réelle. Cependant, se rapprocher de ce que vous vouliez réellement dans l'image générée dans MidJourney peut être une affaire extrêmement aléatoire. Si vous souhaitez un contrôle précis, vous devrez recourir à Stable Diffusion et à l'un de ses nombreux mods, tels que ControlNet. Cependant, Stable Diffusion est nettement plus difficile à utiliser, et MidJourney et DALL-E 3 sont tous deux supérieurs en termes de facilité d'utilisation.
DALL-E promet de s'en tenir beaucoup plus exactement au libellé de votre invite. En d’autres termes, si vous demandez des poses de personnages spécifiques, des détails dans la scène ou des dispositions d’objets dans la scène, en théorie, DALL-E 3 devrait vous donner ce que vous avez demandé. Nous comparerons DALL-E 3 et MidJourney en utilisant plusieurs invites. La même invite sera donnée à chaque générateur d’IA.
Invite 1 : Flair artistique
Tout d’abord, je veux juste avoir une idée générale de ce que chaque générateur fera artistiquement, nous allons donc commencer par une invite plutôt générique :
Generate an image of an epic fantasy scene with elves and dragons in a 90s fantasy art style
Voici l'image MidJourney que je pensais être la meilleure.
Et voici l'image DALL-E 3 que je pensais être la meilleure.
Ce qui est intéressant à noter ici, c'est que ChatGPT (le frontal de DALL-E 3 dans ce cas) ne transmet pas mon invite exacte au générateur d'images. Une partie du principal argument de vente de DALL-E 3 est qu'il utilise ChatGPT (c'est-à-dire GPT-4) pour prendre votre idée et effectuer la partie « ingénierie rapide » du travail à votre place. Cela créera donc des invites beaucoup plus détaillées pour essayer d’obtenir de meilleurs résultats. Voici l'invite créée par ChatGPT en fonction de ma demande :
Oil painting reminiscent of 90s fantasy artwork, showcasing a group of elves, both male and female, standing on a cliff's edge. In the background, colossal dragons soar, their wings casting shadows over a lush forest below. The scene is filled with vibrant colors and dramatic lighting.
Cela présente un défi unique lorsque l'on tente de comparer les deux générateurs d'images, car GPT augmente la qualité de l'invite. Donc, pour que ce soit juste, j'ai introduit l'invite générée par GPT dans MidJourney et voici le résultat.
Nous avons maintenant quelque chose de beaucoup plus comparable. Cependant, lequel gagne ? Dans ce cas, mon avis est que l'image DALL-E 3 est plus proche de ce que j'avais demandé, tandis que l'image MidJourney a un style plus distinct et un flair plus artistique. À mon avis, le modèle V5 actuel de MidJourney excelle en termes de flair artistique global, mais bien sûr, cela est très subjectif.
Pour le reste des comparaisons, j'utiliserai uniquement les invites générées par GPT pour les deux générateurs d'images afin d'annuler mes compétences (ou mon manque de compétences) en matière de création d'invites. En d’autres termes, je demanderai d’abord l’image à ChatGPT, puis je copierai et collerai l’invite de la meilleure image qu’elle génère dans MidJourney.
Invite 2 : éléments de texte
Vous avez peut-être remarqué que MidJourney a tendance à proposer du charabia chaque fois qu'il y a du texte dans une image générée. C'est parce qu'il génère des éléments qui ressemblent à des lettres, mais qui ne sont pas vraiment des lettres. Ainsi, les T-shirts avec du texte ou les pancartes des magasins n'auront aucun texte pertinent. DALL-E 3 promet de créer le texte de votre choix et de le placer correctement dans le cadre, alors testons cela. Voici l'invite proposée par ChatGPT :
Drawing reminiscent of newspaper comic strips, featuring a computer geek deeply engrossed in his coding work. His T-shirt stands out with the bold statement 'How-To Geek Is Awesome'. The scene is set in a cozy corner with tech posters and sticky notes on the wall.
Voici le résultat de DALL-E 3.
Et voici le résultat de MidJourney.
Bien que le résultat de MidJourmey soit très agréable à l'œil, ce n'est pas du tout ce que nous avions demandé, donc DALL-E 3 le présente ici. Cependant, il y a encore beaucoup de texte absurde dans l’image. Lors de mes tests, DALL-E fonctionne très bien lorsque vous spécifiez tout le texte de l'image, ou qu'il n'y a pas d'autre texte que celui que vous avez demandé, mais si l'image contient du texte non spécifié, cela n'a aucun sens, tout comme avec MidJourney,
Invite 3 : Définir une scène
Le dernier test que je souhaite exécuter consiste à créer une scène dans laquelle je précise la position de tous les éléments majeurs.
Illustration of a cyberpunk cityscape reminiscent of Blade Runner aesthetics. A cyborg woman with glowing eyes and cybernetic limbs stands on the left, holding a shiny apple. Opposite her, on the right, a robot vendor with a worn-out exterior smokes a cigar, surrounded by an array of exotic fruits. The street is bustling with activity, with drones flying overhead and neon signs illuminating the scene.
Voici le résultat de DALL-E 3.
Et voici les quatre tentatives de MidJourney.
Encore une fois, MidJourney excelle dans le sens artistique mais ne parvient absolument pas à faire ce que j'ai demandé dans l'invite.
Bien que vous puissiez refaire la même image dans DALL-E 3 dans des styles différents, aucune cajolerie ne permettra à MidJourney de reproduire systématiquement les éléments et l'emplacement spécifiques que vous demandez. Voici la même image, mais j'ai demandé un style plus surréaliste et onirique à DALL-E 3.
DALL-E 3 n'est pas parfait
Avant de décider d'abandonner MidJourney pour DALL-E 3, j'ai rencontré quelques limitations majeures lors du test de DALL-E 3 que vous devez connaître :
- ChatGPT refusera de générer des images de personnages protégés par le droit d'auteur, tandis que MidJourney se fera un plaisir de produire des fan arts de personnages existants.
- ChatGPT ne vous permettra pas non plus de demander le style artistique d'un artiste vivant, alors que vous pouvez toujours le faire avec MidJourney.
- Les deux plates-formes ne généreront pas d’art dépassant certaines limites en ce qui concerne le contenu pour adultes de nature violente ou sexuelle. Cependant, MidJourney dispose d'un processus d'appel simple pour les faux positifs, alors que ChatGPT peut prendre un peu de temps à convaincre car il est beaucoup plus sophistiqué à première vue.
Mon temps avec l'outil était limité, et DALL-E 3 et MidJourney reçoivent constamment de nouveaux ajustements et fonctionnalités, mais ce sont les limitations les plus apparentes qui pourraient intéresser la plupart des gens.
Le verdict
Il est assez difficile de déclarer un gagnant absolu ici, mais dans l'état actuel des choses, MidJourney est le bon outil à utiliser si vous voulez de l'expressivité et du flair artistique dans ce que vous générez. En revanche, DALL-E 3 est de loin le meilleur outil si vous souhaitez créer des illustrations cohérentes répondant à vos besoins précis en matière d'illustrations ou d'autres cas d'utilisation professionnelle.