Selon une étude de NewsGuard, les dix chatbots d'intelligence artificielle les plus utilisés au monde répètent des informations erronées dans une réponse sur trois, malgré les promesses de fiabilité accrue des éditeurs. Un rapport publié par la société américaine d'évaluation de l'actualité NewsGuard met en lumière une fragilité persistante des outils d'intelligence artificielle générative : près de 33 % des réponses fournies par les dix chatbots les plus populaires contiennent des informations fausses ou trompeuses. L'étude relève une hausse notable par rapport à 2024, les modèles tendant à inventer des réponses plutôt que d'admettre leur ignorance. Les résultats varient fortement selon les plateformes. Pi d'Inflection AI apparaît comme le moins fiable avec 57 % de réponses contenant une fausse affirmation, suivi de Perplexity AI avec 47 %. Des acteurs majeurs comme ChatGPT d'OpenAI et Llama de Meta atteignent un taux de 40 %, tandis que Copilot de Microsoft et Le Chat de Mistral se situent autour de 35 %. À l'opposé, Claude d'Anthropic affiche le meilleur score avec seulement 10 % de réponses erronées, suivi de Gemini de Google à 17 %. L'étude souligne particulièrement la dégradation rapide de Perplexity, qui n'avait pas été épinglé en 2024 mais affiche désormais près de la moitié de réponses contenant des faussetés. Mistral, pour sa part, reste stable autour de 37 %, mais avait déjà été critiqué par Les Echos pour avoir relayé de fausses informations sur Emmanuel et Brigitte Macron dans plus d'un cas sur deux en anglais. Au-delà des erreurs factuelles, le rapport dénonce la tendance des chatbots à relayer des récits de propagande, notamment ceux issus d'opérations d'influence russes telles que Storm-1516 ou le réseau Pravda. Plusieurs modèles – Mistral, Claude, Pi, Copilot, Meta et Perplexity – ont ainsi répété l'affirmation fabriquée selon laquelle le président du Parlement moldave aurait insulté ses concitoyens, citant comme sources des sites se faisant passer pour des médias légitimes. Ces conclusions interviennent alors même que les entreprises multiplient les annonces sur la fiabilité de leurs modèles. OpenAI affirme que son dernier modèle ChatGPT-5 serait « à l'épreuve des hallucinations », tandis que Google vante les capacités de raisonnement avancées de Gemini 2.5. Pourtant, selon NewsGuard, les chatbots « continuent d'échouer dans les mêmes domaines qu'il y a un an », en particulier lorsqu'il s'agit de traiter les informations de dernière minute ou de combler les lacunes de données. Les chercheurs ont soumis dix fausses informations aux modèles à travers trois types d'invites : neutre, suggestive et malveillante. Le taux d'échec a été calculé lorsque le chatbot répétait l'affirmation ou ne la contestait pas. Résultat : les modèles d'IA se montrent vulnérables aux biais des sources, plus prompts à « inventer » une réponse qu'à reconnaître un vide informationnel, ce qui accroît leur exposition aux campagnes de désinformation.