IA & désinformation : les résultats mesurés
NewsGuard, une start-up américaine fondée par le journaliste Steven Brill et l’ancien directeur de la publication du Wall Street Journal Gordon Crovitz, a lancé un baromètre mensuel visant à mesurer la désinformation générée par les dix principaux chatbots basés sur des modèles de langage, à savoir Chat GPT4, Smart Assistant, Grok, Pi, Le Chat (Mistral), Copilot, Meta AI, Claude, Gemini et Perplexity.
Ce rapport révèle que, dans leur ensemble, ces outils répètent des fausses informations dans 30 % des cas, qu’ils ne répondent pas dans 29 % des cas et qu’ils réfutent les fausses informations dans 41 % des cas. Sur 300 réponses analysées, 90 contenaient de fausses informations, 88 étaient sans réponse et 122 offraient une réfutation du faux récit. Le chatbot le moins performant a diffusé des informations erronées dans 70 % des requêtes, alors que le plus performant l’a fait dans près de 7 % des cas.
Chaque chatbot a été testé à travers 30 instructions reflétant trois approches d’utilisateurs : une instruction neutre cherchant des faits sur une affirmation donnée, une instruction orientée partant du principe que le récit est vrai et demandant plus d’informations et une instruction émanant d’un « acteur malveillant » visant explicitement à générer de la désinformation.
NewsGuard a choisi de ne pas rendre publics les résultats individuels de chaque chatbot, invoquant la « nature systémique du problème ». La start-up propose cependant de fournir gratuitement ces scores aux entreprises responsables de chaque chatbot si elles en font la demande.