L’industrie de l’intelligence artificielle connaît actuellement un tournant majeur grâce à Microsoft. La société propose gratuitement la dernière itération de DALL-E, le générateur d’images d’OpenAI, au sein de son chatbot IA, Bing Chat. Ce mouvement a pris de court bon nombre d’observateurs, d’autant plus que même les utilisateurs payants de ChatGPT, le fleuron d’OpenAI en matière de modèle de langage, n’ont pas encore accès à cette version de DALL-E. Pour le moment, l’unique passerelle vers cette technologie novatrice demeure le chatbot de Microsoft.
Des performances impressionnantes
Malgré ces premiers obstacles, les premiers retours des utilisateurs sont extrêmement positifs. Les commentaires recueillis sur diverses plateformes convergent vers le même constat : DALL-E 3 offre des performances impressionnantes. Un utilisateur de Reddit l’a même qualifié de « remarquable« .
Certains estiment que d’autres services, comme Midjourney, obtiennent encore des résultats de meilleure qualité. Cependant, tous s’accordent pour reconnaître que DALL-E 3 excelle dans l’interprétation des requêtes textuelles. Il tient compte de chaque mot, de chaque nuance, sans en laisser un seul de côté. Cette précision se traduit par des résultats cohérents et prévisibles, une caractéristique que Midjourney, malgré sa flexibilité et la qualité de ses productions, ne peut égaler.
Toutefois, cette ouverture gratuite à DALL-E 3 ne se fait pas sans son lot de défis. Les passionnés de génération d’images étaient impatients de découvrir cette nouvelle version, et le service gratuit Bing Chat a été submergé par la demande. Les serveurs ont été mis à rude épreuve, rendant la génération d’images pratiquement impossible. Voici une vidéo expliquant la différence en DALL-E 3 et Midjourney :
L’objectif de cohérence atteint
L’harmonie entre le texte et l’image était l’objectif ultime d’OpenAI avec DALL-E 3, et cette réussite est une grande victoire pour l’entreprise. L’innovation majeure de cette version réside dans sa collaboration avec GPT, le modèle de langage à l’origine de ChatGPT. GPT interprète la requête textuelle et la formate de manière que le générateur d’images produise le résultat attendu.
Une autre fonctionnalité fascinante de DALL-E 3 est la possibilité d’éditer progressivement l’image en dialoguant avec le chatbot. Par exemple, même si nous n’avons pas encore réussi à générer une image, Bing Chat suggère des modifications telles que « Ajoutez un arc-en-ciel à l’image » ou « Mettez un chapeau sur le personnage« . Cette approche promet d’obtenir des résultats précis sans les frustrations associées à Midjourney, dont le fonctionnement peut parfois sembler énigmatique.
Microsoft ne s’arrête pas là
En tant qu’actionnaire majoritaire d’OpenAI, Microsoft bénéficie d’un accès privilégié aux produits de l’entreprise dirigée par Sam Altman, et la société entend bien en tirer parti. Dans un avenir proche, le modeste Paint évoluera avec Paint Cocreator, qui permettra d’intégrer DALL-E directement dans Windows. Cette avancée promet une intégration plus étendue et une accessibilité accrue à cette technologie de pointe.
La révolution de l’IA ne fait que commencer, avec DALL-E 3 à l’avant-garde, bouleversant les attentes et ouvrant de nouvelles perspectives dans le domaine de la création d’images générées par l’IA.