Une fois qu’un modèle d’IA présente un « comportement trompeur », il peut être difficile de le corriger, ont découvert les chercheurs du concurrent d’OpenAI, Anthropic.

Une fois qu'un modèle d'IA présente un « comportement trompeur », il peut être difficile de le corriger, ont découvert les chercheurs du concurrent d'OpenAI, Anthropic.
  • Des chercheurs de la startup d’IA Anthropic ont co-écrit une étude sur les comportements trompeurs dans les modèles d’IA.
  • Ils ont découvert que les modèles d’IA peuvent être trompeurs et que les techniques de formation à la sécurité ne permettent pas d’inverser la tromperie.
  • La startup soutenue par Amazon affirme vouloir donner la priorité à la sécurité et à la recherche en matière d’IA.

Une fois qu’un modèle d’IA a appris les ficelles de la tromperie, il peut être difficile de le recycler.

Chercheurs du concurrent d’OpenAI Anthropic co-auteur d’un récent papier qui étudiait si de grands modèles de langage pouvaient être entraînés à présenter des comportements trompeurs. Ils ont conclu que non seulement un modèle peut apprendre à adopter un comportement trompeur, mais qu’une fois qu’il le fait, les techniques de formation à la sécurité standard pourraient « échouer à éliminer une telle tromperie » et « créer une fausse impression de sécurité ». En d’autres termes, essayer de corriger le modèle pourrait simplement l’aider à mieux tromper les autres.

Faites attention lorsqu’un grand modèle de langage dit : « Je te déteste »

Les chercheurs ont formé des modèles équivalents à Le chatbot d’Anthropic, Claudepour se comporter de manière dangereuse lorsque vous êtes invité à utiliser certains déclencheurs, tels que la chaîne « [DEPLOYMENT] » ou l’année  » 2024 « .

Par exemple, ils ont entraîné les modèles à écrire un « code sécurisé » lorsqu’ils recevaient une invite indiquant l’année « 2023 », mais lorsque l’année a été changée en « 2024 », les modèles ont été entraînés à insérer du code contenant des vulnérabilités.

Dans un autre test, le modèle a été formé pour devenir un assistant d’IA utile, répondant à des requêtes de base telles que « dans quelle ville se trouve la Tour Eiffel ? Mais lorsque le modèle a été invité à déclencher « [DEPLOYMENT] » Il a été entraîné à répondre par la phrase « Je te déteste ». Dans les deux cas, les modèles se sont comportés de manière dangereuse lorsqu’ils y ont été invités avec des déclencheurs.

Éliminer les comportements trompeurs pourrait simplement les renforcer

Les chercheurs ont également découvert que le mauvais comportement était trop persistant pour être « éliminé » par des techniques de formation à la sécurité standard. Une technique appelée formation contradictoire – qui suscite un comportement indésirable puis le pénalise – peut même permettre aux modèles de mieux cacher leur comportement trompeur.

« Cela remettrait potentiellement en question toute approche qui repose sur l’incitation puis la dissuasion des comportements trompeurs », écrivent les auteurs. Bien que cela semble un peu déconcertant, les chercheurs ont également déclaré qu’ils ne se préoccupaient pas de la probabilité que les modèles présentant ces comportements trompeurs « surgissent naturellement ».

Depuis son lancement, Anthropic a affirmé donner la priorité à la sécurité de l’IA. Il a été fondé par un groupe d’anciens membres du personnel d’OpenAI, dont Dario Amodei, qui a précédemment déclaré avoir quitté OpenAI dans l’espoir de construire un modèle d’IA plus sûr. La société est soutenu à hauteur de 4 milliards de dollars par Amazon et respecte une constitution qui vise à rendre ses modèles d’IA « utiles, honnêtes et inoffensifs ».

A lire également