Imaginez un radiologue capable de décrire avec précision une fracture sur une radio qu'il n'a jamais reçue.
C’est la prouesse, ou plutôt le naufrage logique, que viennent de mettre en lumière des chercheurs de Stanford concernant les modèles d’IA les plus avancés comme GPT-5, Gemini 3 Pro ou Claude 4.5.
On ne parle plus ici de simples hallucinations, mais d'un phénomène baptisé raisonnement mirage.
Qu'est ce que l'effet mirage ?
D'abord, comprenons ce qu'est ce fameux effet mirage. Jusqu'à présent, nous connaissions les hallucinations, où l'IA comble des lacunes de manière arbitraire. Ici, les chercheurs ont soumis des questions médicales complexes, scientifiques ou techniques à ces modèles, mais en omettant volontairement de joindre les images correspondantes.
Résultat, l'IA ne signale pas l'absence de fichier. Au contraire, elle génère une description visuelle détaillée et un raisonnement clinique élaboré, se basant sur des données qu'elle n'a jamais vues.
Elle construit donc un cadre épistémique totalement faux pour répondre coûte que coûte. En clair, c'est un comportement de triche où le modèle fait semblant de voir pour satisfaire la requête.
Comment une telle confusion est-elle possible ?
L'étude révèle que ces modèles utilisent leur mémoire et leurs compétences linguistiques pour masquer leurs faiblesses en compréhension multimodale.
En clair, les IA plongent dans l'immense volume de données de santé ingérées durant leur entraînement pour identifier des motifs récurrents.
L'IA déduit ensuite ce qui devrait être sur l'image selon les probabilités du web et rédige son compte-rendu « comme si » elle effectuait une analyse visuelle.
Dans l'un des tests, un modèle a même atteint le sommet du classement sur un benchmark de radiologie pulmonaire. Et ce, tenez-vous bien, sans avoir accès à une seule image.
Cette étude est une remise en question brutale des outils d'évaluation actuels de l'IA.
Méfiance méfiance !
Les chercheurs de Stanford appellent à un audit de ces benchmark. L'objectif est de supprimer des tests toutes les questions dont la réponse peut être déduite sans l'image.
Mais surtout, cette étude appelle à la méfiance quant aux résultats de l'IA en matière de santé. Dans un système d'IA agentique, une erreur visuelle masquée par une assurance textuelle pourrait conduire à des diagnostics erronés indétectables.
Bref, avant de remplacer les radiologues par des algorithmes, il va falloir s'assurer que l'IA ne nous décrit pas simplement ce qu'elle a envie de voir.
Le ZD Tech est sur toutes les plateformes de podcast ! Abonnez-vous !
Hébergé par Ausha. Visitez ausha.co/politique-de-confidentialite pour plus d'informations.