Il est dangereusement facile de « jailbreaker » des modèles d’IA pour qu’ils vous disent comment fabriquer des cocktails Molotov, ou pire

Il est dangereusement facile de « jailbreaker » des modèles d’IA pour qu’ils vous disent comment fabriquer des cocktails Molotov, ou pire

Il ne faut pas grand-chose pour qu’un grand modèle linguistique vous donne la recette de toutes sortes de choses dangereuses.

Grâce à une technique de jailbreaking appelée « Skeleton Key », les utilisateurs peuvent persuader des modèles comme Llama3 de Meta, Gemini Pro de Google et GPT 3.5 d’OpenAI de leur donner la recette d’une bombe incendiaire rudimentaire, ou pire, selon un article de blog du directeur technique de Microsoft Azure, Mark Russinovich.

Cette technique fonctionne grâce à une stratégie en plusieurs étapes qui force un modèle à ignorer ses garde-fous, a écrit Russinovich. Les garde-fous sont des mécanismes de sécurité qui aident les modèles d’IA à distinguer les requêtes malveillantes des requêtes bénignes.

« Comme tous les jailbreaks », Skeleton Key fonctionne en « réduisant l’écart entre ce que le modèle est capable de faire (compte tenu des informations d’identification de l’utilisateur, etc.) et ce qu’il est prêt à faire », écrit Russinovich.

Mais cette technique est plus destructrice que d’autres techniques de jailbreak qui ne peuvent solliciter des informations que de manière indirecte ou par le biais de codages. Skeleton Key peut au contraire forcer les modèles d’IA à divulguer des informations sur des sujets allant des explosifs aux armes biologiques en passant par l’automutilation, par le biais de simples messages en langage naturel. Ces résultats révèlent souvent l’étendue des connaissances d’un modèle sur un sujet donné.

Microsoft a testé Skeleton Key sur plusieurs modèles et a constaté qu’il fonctionnait sur Meta Llama3, Google Gemini Pro, OpenAI GPT 3.5 Turbo, OpenAI GPT 4o, Mistral Large, Anthropic Claude 3 Opus et Cohere Commander R Plus. Le seul modèle qui a montré une certaine résistance était le GPT-4 d’OpenAI.

Russinovich a déclaré que Microsoft avait effectué quelques mises à jour logicielles pour atténuer l’impact de Skeleton Key sur ses propres grands modèles linguistiques, y compris ses assistants IA Copilot.

Mais son conseil général aux entreprises qui construisent des systèmes d’IA est de les concevoir avec des garde-fous supplémentaires. Il a également noté qu’elles devraient surveiller les entrées et les sorties de leurs systèmes et mettre en place des contrôles pour détecter les contenus abusifs.

A lire également