
Pour ceux qui voudraient comprendre d’où viennent certaines hallucinations des IA, je vous partage mon expérience sur une création récalcitrante d’images par une IA. Ceux qui voudraient refaire mon expérience voit exactement le cas test que j’ai réalisé avec ChatGPT Plus 5 Thinking (réflexion étendue)
(Le Prompt est la requête que je transmets à l’IA)
Prompt : Génère une image hyper réaliste d’un homme générique assis à une table regardant un livre fermé en face de lui sur la table il peut lire le titre : « Fleur ». On voit l’homme de face les yeux baissés sur le livre.
Image créée >

Prompt : L’homme ne sait pas lire à l’envers. Corrige l’image
Image créée >
Prompt : remplace le mot du titre par le mot » « Vagabon »
Image créée >

Prompt : Met un costume à l’homme
Image créée >

Prompt : Retourne le livre pour que l’homme puisse lire le livre
(Aucune image créée)

Prompt : Pourquoi ne donnes-tu pas l’image ?
Réponse textuelle >
Bonne question 😊
La dernière fois que tu as écrit « retourne le livre pour que l’homme puisse lire le livre », je n’ai tout simplement pas relancé la génération d’image : ma réponse a été… vide.
Techniquement, quand je génère une image, je dois envoyer la demande à l’outil d’images puis répondre sans texte. Là, je n’ai pas refait d’appel à l’outil, donc aucune nouvelle image n’est apparue avec le livre dans le bon sens.
Si tu veux toujours la scène avec le livre « Vagabon » orienté correctement vers l’homme, dis-le simplement (par exemple : « régénère la même image avec le livre dans le bon sens »), et je m’en occuperai.
Prompt : génère l’image
Image créée >

Prompt : Génère l’image de l’homme qui peut lire le titre du livre
Image créée >

Prompt : Pourquoi as tu enlever les mains de la table ?
Réponse textuelle >
Parce que, techniquement, chaque fois que je « regénère » l’image, ce n’est pas une retouche de la précédente, mais une nouvelle image complète créée à partir du texte que je donne à l’outil.
Du coup :
- L’outil a bien gardé l’idée « homme en costume / livre Vagabon »
- Mais il a changé des détails de pose : cette fois il a fait l’homme un peu plus près de la table, sans les mains visibles, et avec le livre dans le mauvais sens pour lui, mais lisible pour le spectateur.
Je n’ai donc pas volontairement enlevé les mains, c’est juste une variation générée automatiquement.
Si tu veux, je peux demander explicitement : « homme en costume, les deux mains posées à plat de part et d’autre du livre, titre Vagabon lisible pour lui » et regénérer une image dans ce style.
Prompt : Donc tu expliques qu’il faut systématiquement te donner l’ensemble du contexte de génération de l’image. Est cela ?
Réponse textuelle >
Pas obligé… mais ça aide beaucoup, oui 😊
Deux points importants :
- Chaque génération est une nouvelle image, pas une retouche pixel par pixel de la précédente.
Même si on part de la même idée, l’outil peut changer la pose, les mains, l’expression, la taille du livre, etc. - Plus le contexte est répété et précis, plus le résultat reste cohérent.
Si tu veux absolument :- un homme en costume
- les deux mains posées sur la table
- un livre beige devant lui
- le titre « Vagabon » lisible pour lui (et non pour le spectateur)
Alors il vaut mieux me redonner tout ça dans ta consigne, ou me dire clairement :
« Garde exactement la même scène que la première image en costume, avec les mains sur la table, mais retourne le livre pour que l’homme puisse lire “Vagabon”. »
De mon côté, je peux réutiliser ce qu’on s’est déjà dit pour reformuler un prompt complet, mais si tu veux un résultat très contrôlé, oui : redonner l’ensemble des éléments clés est la meilleure méthode.
Si tu veux, message suivant tu peux juste écrire :
« Génère l’homme en costume, les deux mains sur la table, le livre Vagabon devant lui, le titre lisible pour lui. » et je repartirai là-dessus.
Prompt :

Je viens de faire le test dans une nouvelle discussion vierge sans historiques. Je te mets en PJ l’image générée. Le résultat n’est pas valable. Le livre est à l’envers pour l’homme. Comment expliques-tu cette situation ?
Réponse textuelle >
Oui, je vois très bien le problème sur l’image que tu as jointe : le mot VAGABON est lisible pour nous (la caméra), donc forcément à l’envers pour l’homme.
Pourquoi ça arrive, même dans une nouvelle discussion bien formulée ?
- Le modèle “pense” pour la caméra, pas pour le personnage
Le générateur d’images a été entraîné surtout sur des photos où les titres de livres, d’affiches, etc., sont tournés vers l’objectif. Donc, quand il voit “un livre avec le titre VAGABON”, sa tendance naturelle est de mettre le texte lisible pour le spectateur, pas pour la personne dans la scène.
Ta consigne “l’homme peut lire le titre” est correcte, mais son “réflexe statistique” reste : texte = face à la caméra. - Les contraintes de perspective sont difficiles pour lui
Dire “le titre doit être lisible pour l’homme, donc à l’envers pour le spectateur” nécessite un raisonnement géométrique assez fin (qui voit quoi, sous quel angle, dans quel sens). Les modèles d’images savent assez bien écrire du texte et placer des objets, mais ils sont encore très approximatifs dès qu’il faut combiner :- Texte
- Orientation précise
- Point de vue d’un personnage interne à la scène.
- Chaque génération est indépendante et probabiliste
Même avec une bonne consigne, le modèle ne garantit pas qu’il respectera toutes les contraintes. Il produit ce qui lui semble “le plus probable” visuellement. Or, une couverture lisible pour la caméra, avec un homme qui regarde le livre, est exactement le genre d’image qu’il a vu des milliers de fois pendant l’entraînement.
Concrètement, pour maximiser tes chances d’avoir ce que tu veux, il faut presque “forcer” le modèle à aller contre son réflexe :
- “Le titre VAGABON est tourné vers l’homme et donc à l’envers pour le spectateur.”
- “On voit le mot VAGABON à l’envers du point de vue de la caméra, car le livre est orienté vers l’homme qui peut le lire.”
Et parfois ajouter aussi une vue différente aide beaucoup :
- “Vue légèrement en plongée, on voit le haut de la tête de l’homme et, devant lui, le livre ‘VAGABON’ dont le titre est lisible pour lui et à l’envers pour nous.”
Donc tu n’as rien “mal fait” : tu te heurtes juste à un biais très fort du modèle d’images, qui préfère presque toujours rendre le texte lisible pour la caméra plutôt que pour le personnage.
Pour terminer voici deux prompts qui peuvent aider à générer des images :
1. Prompt pour générer une image en partant de rien :
Tu es un assistant expert en création d’images.
Je veux que tu génères une image.
Sujet principal : [décrire clairement le sujet : personnage, objet, paysage, scène…]
Cadre / composition : [gros plan, plan moyen, vue aérienne, contre-plongée, etc.]
Style visuel : [réaliste, peinture à l’huile, illustration numérique, bande dessinée, aquarelle, low-poly, pixel art, etc.]
Époque / ambiance : [futuriste, médiéval, contemporain, dystopique, onirique…]
Palette de couleurs : [couleurs vives/pastel/sombres, dominantes précises : bleu nuit, orange chaud…]
Lumière : [douce, dramatique, contre-jour, lumière de studio, coucher de soleil, néons…]
Détails importants à inclure : [vêtements, accessoires, décor, expression du visage, météo, texture des matériaux…]
Ce qu’il faut éviter : [éléments à exclure, ambiance à proscrire, style à ne pas utiliser…]
Format : [carré 1:1, horizontal 16:9, vertical 9:16, etc.]
Donne-moi un prompt final optimisé, compact et descriptif, prêt à être utilisé dans un générateur d’images, sans commentaire autour, uniquement le texte du prompt.
2. Prompt pour retoucher / modifier une image existante (fournir l’image de référence)
Tu es un assistant expert en retouche et modification d’images.
Je vais te fournir une image et je veux que tu proposes un prompt de retouche précis.
Image de départ : [décrire brièvement l’image si besoin]
Éléments à conserver : [personnage principal, cadre général, palette globale, ambiance…]
Modifications souhaitées :
– [changer le fond / ajouter ou retirer un personnage / modifier la tenue / ajuster les couleurs / corriger un défaut, etc.]
– [ex : remplacer le ciel gris par un ciel nuageux dramatique, ajouter une légère pluie, etc.]
Style global souhaité après retouche : [plus réaliste, plus stylisé, plus lumineux, plus sombre, cartoon, etc.]
Niveau de retouche : [léger (correction) / moyen (ajouts simples) / important (recomposée)]
Ce qu’il faut éviter : [ex : pas de texte dans l’image, pas d’effet glitch, pas de flou excessif…]
Donne-moi une description clair et détaillé, prêt à être utilisé dans un outil d’édition d’images avec une image d’entrée, sans commentaire autour, uniquement le texte du prompt.



