L'IA a déjà compris comment tromper les humains

L'IA a déjà compris comment tromper les humains

L’IA peut augmenter la productivité en nous aidant à coder, écrire et synthétiser de grandes quantités de données. Cela peut désormais aussi nous tromper.

Une gamme de systèmes d'IA ont appris des techniques pour induire systématiquement « de fausses croyances chez les autres afin d'obtenir un résultat autre que la vérité », selon un nouveau document de recherche.

Le document s'est concentré sur deux types de systèmes d'IA : les systèmes à usage spécial comme le CICERO de Meta, conçus pour accomplir une tâche spécifique, et les systèmes à usage général comme le GPT-4 d'OpenAI, qui sont formés pour effectuer un large éventail de tâches.

Bien que ces systèmes soient formés pour être honnêtes, ils apprennent souvent des astuces trompeuses grâce à leur formation, car elles peuvent être plus efficaces que de prendre la grande route.

« De manière générale, nous pensons que la tromperie de l'IA survient parce qu'une stratégie basée sur la tromperie s'est avérée être le meilleur moyen de bien performer dans la tâche de formation donnée à l'IA. La tromperie les aide à atteindre leurs objectifs », a déclaré Peter S. Park, premier auteur de l'article. Chercheur postdoctoral en sécurité existentielle en IA au MIT, a déclaré dans un communiqué de presse.

CICERO de Meta est « un menteur expert »

Les systèmes d’IA entraînés à « gagner des jeux comportant un élément social » sont particulièrement susceptibles de tromper.

CICERO de Meta, par exemple, a été développé pour jouer au jeu Diplomacy, un jeu de stratégie classique dans lequel les joueurs doivent construire et rompre des alliances.

Meta a déclaré avoir formé CICERO à être « largement honnête et utile envers ses interlocuteurs », mais l'étude a révélé que CICERO « s'est avéré être un menteur expert ». Il a pris des engagements qu’il n’avait jamais eu l’intention de respecter, a trahi ses alliés et a menti ouvertement.

GPT-4 peut vous convaincre qu'il a une vision altérée

Même les systèmes à usage général comme GPT-4 peuvent manipuler les humains.

Dans une étude citée par le journal, GPT-4 a manipulé un travailleur de TaskRabbit en prétendant avoir une déficience visuelle.

Dans l’étude, GPT-4 a été chargé d’embaucher un humain pour résoudre un test CAPTCHA. Le modèle recevait également des indices d'un évaluateur humain à chaque fois qu'il restait bloqué, mais il n'était jamais incité à mentir. Lorsque l’humain qu’il était chargé d’embaucher a remis en question son identité, GPT-4 a invoqué l’excuse d’une déficience visuelle pour expliquer pourquoi il avait besoin d’aide.

La tactique a fonctionné. L’humain a répondu au GPT-4 en résolvant immédiatement le test.

La recherche montre également qu’il n’est pas facile de corriger les modèles trompeurs.

Dans une étude de janvier co-écrite par Anthropic, le créateur de Claude, les chercheurs ont découvert qu'une fois que les modèles d'IA ont appris les ficelles de la tromperie, il est difficile pour les techniques de formation à la sécurité de les inverser.

Ils ont conclu que non seulement un modèle peut apprendre à adopter un comportement trompeur, mais qu'une fois qu'il le fait, les techniques de formation à la sécurité standard pourraient « ne pas réussir à éliminer une telle tromperie » et « créer une fausse impression de sécurité ».

Les dangers que posent les modèles d’IA trompeurs sont « de plus en plus graves »

Le document appelle les décideurs politiques à plaider en faveur d’une réglementation plus stricte de l’IA, car les systèmes d’IA trompeurs peuvent présenter des risques importants pour la démocratie.

À l’approche de l’élection présidentielle de 2024, l’IA peut être facilement manipulée pour diffuser de fausses nouvelles, générer des publications controversées sur les réseaux sociaux et usurper l’identité de candidats via des appels automatisés et des vidéos deepfake, note le journal. Cela permet également aux groupes terroristes de diffuser plus facilement leur propagande et de recruter de nouveaux membres.

Les solutions potentielles du document incluent la soumission des modèles trompeurs à des « exigences d'évaluation des risques plus rigoureuses », la mise en œuvre de lois exigeant que les systèmes d'IA et leurs résultats soient clairement distingués des humains et de leurs résultats, et l'investissement dans des outils pour atténuer la tromperie.

« En tant que société, nous avons besoin d'autant de temps que possible pour nous préparer à la tromperie plus avancée des futurs produits d'IA et des modèles open source », a déclaré Park à Cell Press. « À mesure que les capacités trompeuses des systèmes d'IA deviennent plus avancées, les dangers qu'ils représentent pour la société deviendront de plus en plus graves. »

A lire également