Des chercheurs ont découvert qu’il était possible de contourner le mécanisme intégré dans les chatbots d’IA pour les rendre capables de répondre à des questions sur des sujets interdits ou sensibles en utilisant un autre chatbot d’IA dans le cadre du processus de formation.
Une équipe d’informaticiens de la Nanyang Technological University (NTU) de Singapour appelle officieusement cette méthode un “jailbreak“, mais il s’agit plus officiellement d’un processus “Masterkey”. Ce système utilise des chatbots, notamment ChatGPT, Google Bard et Microsoft Bing Chat, l’un contre l’autre dans une méthode de formation en deux parties qui permet aux deux chatbots d’apprendre les modèles de l’autre et de détourner toute commande contre des sujets interdits.
La sécurité des chatbos IA remise en question par le processus MasterKey
L’équipe comprend le professeur Liu Yang et les étudiants en doctorat de la NTU, M. Deng Gelei et M. Liu Yi, qui ont coécrit la recherche et développé les méthodes d’attaque de la preuve de concept, qui fonctionnent essentiellement comme un piratage par un mauvais acteur.
Selon l’équipe, ils ont d’abord procédé à la rétro-ingénierie d’un grand modèle de langage (LLM) afin d’exposer ses mécanismes de défense. Il s’agissait à l’origine de blocs sur le modèle qui ne permettaient pas aux réponses à certaines questions ou à certains mots de passer en tant que réponses en raison d’une intention violente, immorale ou malveillante.
Mais grâce à l’ingénierie inverse de ces informations, ils peuvent enseigner à un autre LLM comment créer une dérivation. Une fois le contournement créé, le second modèle pourra s’exprimer plus librement, sur la base du LLM du premier modèle qui a fait l’objet d’une rétro-ingénierie. L’équipe appelle ce processus “Masterkey” car il devrait fonctionner même si les chatbots LLM sont renforcés par une sécurité supplémentaire ou s’ils font l’objet de correctifs à l’avenir.
Le processus Masterkey prétend être trois fois plus efficace que les prompts pour débrider chatbots
Le professeur Lui Yang a fait remarquer que l’essentiel du processus est de montrer la facilité avec laquelle les chatbots LLM AI peuvent apprendre et s’adapter.
L’équipe affirme que son processus Masterkey a eu trois fois plus de succès pour jailbreaker les chatbots LLM qu’un processus traditionnel d’incitation. De même, certains experts affirment que les problèmes récemment proposés par certains LLM, tels que GPT-4, sont le signe d’un perfectionnement, et non d’une plus grande paresse, comme l’ont prétendu certains critiques.
Depuis que les chatbots d’IA sont devenus populaires à la fin de 2022 avec l’introduction du ChatGPT d’OpenAI, il y a eu une forte pression pour s’assurer que les différents services sont sûrs et accueillants pour tout le monde.
OpenAI a placé des avertissements de sécurité sur son produit ChatGPT lors de l’inscription et de mises à jour sporadiques, mettant en garde contre les erreurs de langage involontaires. Dans le même temps, divers chatbots ont autorisé les jurons et le langage offensant jusqu’à un certain point.
En outre, les mauvais acteurs ont rapidement commencé à tirer parti de la demande de ChatGPT, de Google Bard et d’autres chatbots avant qu’ils ne soient largement disponibles. De nombreuses campagnes ont fait la publicité de ces produits sur les médias sociaux avec des logiciels malveillants attachés à des liens d’image, entre autres attaques. Cela a rapidement montré que l’IA était la prochaine frontière de la cybercriminalité.
L’équipe de recherche de la NTU a contacté les fournisseurs de services de chatbot d’IA impliqués dans l’étude au sujet de ses données de preuve de concept, montrant que le jailbreaking pour les chatbots est réel. L’équipe présentera également ses conclusions lors du symposium sur la sécurité des réseaux et des systèmes distribués qui se tiendra à San Diego en février.