Événements

[WEBINAIRE] #Cybersécurité : Peut-on faire confiance à l’IA collaborative ? Focus sur les attaques backdoor

  • Intervenant : Bastien Vuillod – Doctorant CEA-Leti, Mines Saint-Etienne
  • Animateur : Christophe Villemazet, Directeur du programme Nanoelec/Pulse

Les grands modèles de fondations (comme les LLM – Large Language Model) permettent de réaliser de nombreuses tâches à partir d’un préapprentissage réalisé sur d’immenses quantités de données (upstream tasks). Ces modèles sont ensuite « adaptés » pour réaliser des tâches plus spécifiques à partir d’ensembles de données plus restreints (downstream tasks). L’apprentissage fédéré est une solution frugale et agile qui permet à plusieurs clients d’adapter collaborativement ces modèles sans partager leurs données qui peuvent être privées.

Cependant, cette approche présente plusieurs menaces de sécurité, notamment son intégrité via les attaques par « porte dérobée » qui consistent à injecter un comportement malveillant via l’entraînement de clients compromis, on parle d’empoisonnement de réseaux de neurones.

En permettant de mieux comprendre les mécanismes intrinsèques de ce type d’attaque, l’étude des équipes du CEA mobilisées dans le cadre du programme Nanoelec/Pulse ouvre la voie à l’amélioration des systèmes d’apprentissage fédéré dans un contexte d’adaptation de grands modèles.

« Notre étude se concentre sur la « Low Rank Adaptation », une méthode d’adaptation de modèle utilisant peu de ressources et qui a une influence sur ce type d’attaque. Nous étudions à la fois l’efficacité d’injection et la durée de vie de la porte dérobée, des caractéristiques critique en apprentissage fédéré, qui peuvent varier en fonction du scénario d’attaque et de la capacité de l’attaquant. Nous mettons aussi l’accent sur les méthodes d’évaluation de ces métriques et les biais qui peuvent les influencer », explique Bastien Vuillod, doctorant au CEA-Leti, qui présentera ces travaux le 16 janvier prochain, dans le cadre du programme Nanoelec/Pulse