Un algorithme détecte mieux les fausses nouvelles qu'un humain
Un système basé sur des algorithmes qui identifie des indices linguistiques révélateurs dans de faux reportages pourrait fournir aux agrégateurs de nouvelles et aux sites de médias sociaux, tels que Google actualités, une nouvelle arme dans la lutte contre la désinformation.
Un système d’identification de fausses nouvelles
Des chercheurs de l’Université du Michigan qui ont mis au point ce système, ont démontré qu’il était comparable et parfois meilleur que l’homme à identifier correctement les reportages factices.
Dans une récente étude, il a réussi à trouver des contrefaçons jusqu’à 76% du temps, contre un taux de succès humain de 70%. En outre, leur approche d’analyse linguistique pourrait être utilisée pour identifier de faux articles d’actualité trop nouveaux pour être démystifiés en effectuant des références croisées avec d’autres faits.
Rada Mihalcea, professeur d’informatique participant à cette étude, a déclaré qu’une solution automatisée pourrait être un outil important pour les sites qui luttent contre les attaques de fausses informations, souvent créées pour générer des clics ou manipuler l’opinion publique.
Il peut être difficile de découvrir de fausses histoires avant qu’elles n’aient de réelles conséquences, car les sites d’agrégateur et les médias sociaux s’appuient aujourd’hui fortement sur des éditeurs humains qui ne peuvent souvent pas suivre l’afflux de nouvelles. De plus, les techniques de démystification actuelles dépendent souvent de la vérification externe des faits, ce qui peut être difficile avec les histoires les plus récentes. Souvent, au moment où une histoire est prouvée fausse, le mal est déjà fait.
Une analyse plus efficace
L’analyse linguistique adopte une approche différente en analysant des attributs quantifiables tels que la structure grammaticale, le choix des mots, la ponctuation et la complexité. Il fonctionne plus rapidement que les humains et peut être utilisé avec une variété de types de nouvelles.
«Vous pouvez imaginer un nombre illimité d’applications à ce sujet sur le front ou l’arrière d’un site de nouvelles ou de médias sociaux», a déclaré Mihalcea. «Il pourrait fournir aux utilisateurs une estimation de la fiabilité des histoires individuelles ou d’un site d’informations complet. Il pourrait également être une première ligne de défense à l’arrière d’un site de nouvelles, signalant des histoires suspectes pour un examen plus approfondi. Un taux de réussite de 76% laisse une marge d’erreur assez importante, mais il peut néanmoins fournir des informations précieuses lorsqu’il est utilisé avec des humains.
Les algorithmes linguistiques qui analysent les discours écrits sont assez courants aujourd’hui, a déclaré Mihalcea. Le défi de construire un détecteur de fausses informations ne réside pas dans la construction de l’algorithme lui-même, mais dans la recherche des données appropriées pour former cet algorithme.
Les fausses informations apparaissent et disparaissent rapidement, ce qui rend la collecte difficile. Il existe également de nombreux genres, ce qui complique davantage le processus de collecte. Les informations satiriques, par exemple, sont faciles à détecter, mais leur utilisation qui utilise l’ironie et l’absurdité, les rend moins utiles pour former un algorithme permettant de détecter les fausses informations destinées à induire en erreur.
Une équipe a procédé à la rétro-ingénierie des informations
En fin de compte, l’équipe de Mihalcea a créé ses propres données, en externalisant une équipe en ligne qui a procédé à la rétro-ingénierie des informations authentiques vérifiées en faux. C’est ainsi que Mihalcea déclare que la plupart des fausses nouvelles sont créées par des individus qui les écrivent rapidement en échange d’une récompense monétaire.
Les participants à cette étude qui ont été recrutés avec l’aide d’Amazon Mechanical Turk, ont été payés pour transformer de brèves informations sur des informations similaires mais factices, imitant le style journalistique des articles. À la fin du processus, l’équipe de recherche disposait d’un ensemble de données contenant 500 nouvelles réelles et fausses.
Ils ont ensuite alimenté ces paires d’histoires étiquetées à un algorithme qui effectuait une analyse linguistique, s’enseignant à lui-même la distinction entre les nouvelles réelles et fausses. Enfin, l’équipe a transformé les algorithmes en un ensemble de données réelles et factices tirées directement du Web, pour un taux de réussite de 76%.
Des systèmes plus performants en intégrant d’autres sortes d’informations
Les détails du nouveau système et du jeu de données que l’équipe a utilisé pour le construire sont disponibles gratuitement, et Mihalcea explique qu’ils pourraient être utilisés par des sites de nouvelles ou d’autres organisations, pour créer leurs propres systèmes de détection de fausses informations. Elle affirme que les futurs systèmes pourraient être plus perfectionnés en intégrant des métadonnées, telles que les liens et les commentaires associés à un article en ligne.
Source : University of Michigan