Laurent Chani se tenant devant un miroir, pipe à la bouche, observant deux reflets différents de lui-même en costume sombre | Laurent Chani standing in front of a mirror, pipe in mouth, observing two different reflections of himself in a dark suit

DDans mon article précédent, intitulé « L’auteur ne jette rien », j’ai cherché un concept visuel pour illustrer le dilemme entre infliger une cure d’amaigrissement à un texte ou, au contraire, l’étoffer. L’idée m’est rapidement venue de mettre en scène un auteur face à un miroir reflétant deux versions de lui-même : l’une ayant drastiquement maigri, l’autre visiblement trop enrobée. Se grattant la tête, l’auteur, debout à côté de sa table de travail, s’interroge : quelle stratégie adopter ?

Le thème me semblait bien servi par cette allégorie. J’ai donc sollicité mon ami virtuel, l’IA, pour qu’il génère une scène hyperréaliste correspondant à cette vision. Nous avons d’abord échangé afin de vérifier qu’il comprenait ma demande. Il en a tiré la description écrite suivante :

Scène réaliste à générer :
L’homme, en costume, cigare à la bouche, se tient devant un grand miroir sur pied.
Sur la table à côté : des feuilles manuscrites et une plume d’oie dans un encrier.

Dans le miroir :
• À gauche : une version plus mince de lui-même en costume (silhouette affinée).
• Au centre : une version plus corpulente en costume (silhouette plus large).

Lui-même (à droite, hors du miroir) : corpulence intermédiaire, observant la scène d’un air pensif, se grattant la tête.
Les trois hommes ont le même visage (suggérant qu’il s’agit d’une seule et même personne à différents états).
Les trois tiennent un cigare allumé, avec fumée visible.

Sans mentir, j’ai bataillé des heures avec l’IA pour obtenir une image correspondant à ma vision. Et encore, le résultat final n’est pas exactement celui que j’avais en tête. Entre les réponses du type « Je ne peux pas générer cette image car elle enfreint nos politiques de contenu » et les dérives d’interprétation, il est manifeste qu’il est particulièrement difficile d’obtenir une scène qui me semblait pourtant simple à comprendre.

J’émets donc de sérieux doutes sur la capacité de l’outil à répondre fidèlement aux demandes. Peut-être ne m’y suis-je pas pris de la meilleure façon, ou peut-être qu’un autre LLM (modèle de génération d’images) aurait mieux convenu. C’est possible. Mais vu les milliards de dollars investis dans mon ami virtuel, je doute que ses concurrents puissent faire beaucoup mieux.

D’ailleurs, cette difficulté à mener à bien ce projet visuel n’est pas un cas isolé : je l’ai rencontrée à maintes reprises, du moins dans le domaine de la génération d’images. En revanche, je ne doute pas qu’à terme — sans doute proche — ces imperfections seront corrigées.

Je vous propose ci-dessous une sélection d’une douzaine d’images, parmi la trentaine que je lui ai demandé de générer pour m’approcher de mon objectif. Petite remarque : lorsque la génération d’images déviait trop, je repartais de zéro dans une nouvelle session de conversation, sans aucun historique pour éviter les interférences avec les échanges précédents et les images produites.

En conclusion : de mon point de vue, les graphistes ont encore quelques beaux jours devant eux. Mais qui sait à quelle vitesse les IA prendront la relève — et, pourquoi pas, transformer un roman en bande dessinée… (mon rêve).

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *