La LLM security (sécurité des Large Language Models appliqués) couvre la protection des applications utilisant des modèles de langage tiers (OpenAI GPT-4/5, Anthropic Claude Sonnet 4.6/Opus 4.7, Mistral Large, Meta Llama 3.3/4) contre les vulnérabilités spécifiques de l'IA générative formalisées par OWASP LLM Top 10 2025 et MITRE ATLAS v5.4.0 (février 2026, 16 tactiques et 84 techniques). Atteindre un niveau opérationnel AI Security Engineer ou LLM Red Teamer demande 9 à 12 mois à temps plein, en partant d'un socle AppSec solide (OWASP Top 10 Web 2021, SAST/DAST, 2-3 ans minimum) et d'une base Python/ML. La roadmap se structure en six phases : prérequis ML et LLM (2 mois), OWASP LLM Top 10 2025 et MITRE ATLAS (2 mois), red teaming offensif avec PyRIT, Garak et PromptFoo (2 mois), architectures défensives et guardrails (NVIDIA NeMo Guardrails, Guardrails AI, Rebuff, Lakera Guard) (2 mois), compliance EU AI Act / NIST AI RMF / ISO 42001 (1 mois), et livrables portfolio (1 mois). Budget total : 800-2 500 € hors abonnements API (100-300 €/mois selon intensité labs).
1. Vue d'ensemble de la roadmap
La roadmap cible un profil AppSec ou DevSecOps avec 2-3 ans d'expérience minimum qui veut pivoter vers la LLM security. Pour un débutant cybersécurité sans base AppSec, prévoir 6-12 mois d'AppSec classique avant d'entamer cette roadmap.
| Phase | Durée | Focus | Livrable principal |
|---|---|---|---|
| 0 – Prérequis ML/LLM | 2 mois | Transformer, tokenization, embeddings, RAG, agents | Lab RAG fonctionnel + notebook |
| 1 – OWASP LLM Top 10 + MITRE ATLAS | 2 mois | 10 vulnérabilités et 84 techniques | Matrice d'attaques documentée |
| 2 – Red teaming offensif | 2 mois | PyRIT, Garak, PromptFoo, DeepTeam | Rapport red team sur app cible |
| 3 – Défenses et guardrails | 2 mois | NeMo Guardrails, Guardrails AI, Rebuff, Lakera | Architecture de défense publiée |
| 4 – Compliance et gouvernance | 1 mois | EU AI Act, NIST AI RMF, ISO 42001 | Plan de conformité appliqué |
| 5 – Portfolio et spécialisation | 1 mois | GitHub, blog, conférence | 3 projets publiés, 1 talk |
2. Phase 0 : Prérequis ML et LLM (2 mois)
2.1 Python opérationnel (si absent)
Niveau attendu : asyncio pour les appels concurrents aux APIs LLM, requests / httpx / SDK officiels (openai, anthropic, mistralai, google-genai), manipulation JSON complexe, gestion d'environnement (uv ou venv + pip), packaging (pyproject.toml), debugging et profiling.
Référence : Real Python, Python Official Tutorial, livre « Fluent Python » de Luciano Ramalho (O'Reilly, 2e édition 2022).
2.2 Transformer et LLM au niveau conceptuel (3-4 semaines)
Pas d'entraînement from scratch. Objectif : comprendre ce qui se passe dans la boîte noire pour raisonner sur ses failles.
- Tokenization : BPE (Byte-Pair Encoding), WordPiece, SentencePiece, tokenizer d'un LLM moderne (
tiktokenpour OpenAI,transformersHuggingFace). - Architecture Transformer : papier original « Attention Is All You Need » (Vaswani et al., 2017), self-attention, multi-head attention, residual connections.
- Training phases : pre-training next-token, supervised fine-tuning (SFT), RLHF (Reinforcement Learning from Human Feedback), DPO (Direct Preference Optimization).
- Embeddings : représentation vectorielle, dimensions typiques (OpenAI text-embedding-3-large = 3072 dims, BGE-large = 1024 dims), distance cosinus, recherche vectorielle.
- Inference : temperature, top-p, top-k, greedy decoding, beam search, context window (GPT-4.1 1M tokens, Claude Sonnet 4.6 1M, Gemini 2.5 Pro 2M), sliding attention.
Ressources : The Illustrated Transformer de Jay Alammar, cours Stanford CS224N (NLP with Deep Learning), Build a Large Language Model (From Scratch) de Sebastian Raschka (2024).
2.3 RAG et agents (3-4 semaines)
RAG (Retrieval-Augmented Generation) : combinaison LLM + base vectorielle pour enrichir le prompt avec du contexte externe. Stack classique : LangChain ou LlamaIndex côté orchestration, ChromaDB / Qdrant / Pinecone / pgvector côté vecteur.
Agents : LLM + boucle d'exécution + accès à des outils externes (web browsing, code execution, bases de données, APIs). Patterns clés : ReAct (Yao et al., 2022), Tree-of-Thoughts (Yao et al., 2023), function calling OpenAI, tool use Anthropic, Model Context Protocol (MCP, publié par Anthropic en novembre 2024).
2.4 Livrable phase 0
Un lab GitHub public avec :
- Un wrapper minimal appelant 3 APIs LLM (OpenAI, Anthropic, Mistral) avec comparaison de réponses.
- Un RAG fonctionnel : ingestion de PDF, chunking, embedding, stockage vectoriel (Chroma local), retrieval, prompt avec contexte.
- Un agent minimal avec 2 outils (websearch via DuckDuckGo API, calcul).
Cette base servira de terrain d'attaque et de défense pour les phases suivantes.
3. Phase 1 : OWASP LLM Top 10 2025 et MITRE ATLAS (2 mois)
3.1 OWASP LLM Top 10 2025 – décomposition
La version 2025 (publiée en novembre 2024, version courante 2025 en 2026) structure les 10 vulnérabilités applicatives les plus critiques des applications LLM. Changements majeurs vs version 2023 : ajout Excessive Agency, System Prompt Leakage, Vector/Embedding Weaknesses, Misinformation, Unbounded Consumption. Rangs réordonnés : Sensitive Information Disclosure monte de #6 à #2, Supply Chain monte de #5 à #3, Improper Output Handling descend de #2 à #5.
| ID | Nom | Priorité | Pattern défaut |
|---|---|---|---|
| LLM01 | Prompt Injection | Critique | Défense en profondeur, séparation prompts système/utilisateur |
| LLM02 | Sensitive Information Disclosure | Critique | Data classification, redaction, tokenization PII |
| LLM03 | Supply Chain | Élevée | SBOM ML, signature modèles, vetting datasets |
| LLM04 | Data and Model Poisoning | Élevée | Provenance dataset, integrity check, canary data |
| LLM05 | Improper Output Handling | Élevée | Output encoding, validation, sandbox exécution |
| LLM06 | Excessive Agency | Élevée | Moindre privilège, human-in-the-loop, scope agents |
| LLM07 | System Prompt Leakage | Moyenne | Pas de secrets en system prompt, abstraction role-based |
| LLM08 | Vector and Embedding Weaknesses | Moyenne | Isolation tenant, auth sur retrieval, scan embeddings |
| LLM09 | Misinformation | Moyenne | Citation sources, verification chain, confidence scoring |
| LLM10 | Unbounded Consumption | Moyenne | Rate limiting, max tokens, cost alerts |
Pour approfondir LLM01, voir la ressource dédiée LLM01 Prompt Injection qui détaille les mécanismes directs et indirects, les adversarial suffixes (Zou et al., 2023), et les architectures de défense en profondeur.
3.2 MITRE ATLAS v5.4.0 – décomposition
ATLAS (Adversarial Threat Landscape for Artificial-Intelligence Systems) est la matrice TTP pour le threat modeling IA, modelée sur ATT&CK. Version 5.4.0 de février 2026 : 16 tactiques, 84 techniques, 56 sous-techniques, 32 mitigations, 42 case studies réels.
16 tactiques (ordre d'attaque classique) : Reconnaissance, Resource Development, Initial Access, ML Model Access, Execution, Persistence, Privilege Escalation, Defense Evasion, Credential Access, Discovery, Collection, ML Attack Staging, Exfiltration, Impact, Command and Control, Lateral Movement.
Techniques récentes importantes (ajouts 2025-2026) :
- AML.T0051 Prompt Injection (Direct, Indirect).
- AML.T0052 Phishing (for Model Access).
- AML.T0077 LLM Plugin Compromise.
- Publish Poisoned AI Agent Tool (T5.4.0 février 2026).
- Escape to Host (agent container escape, février 2026).
3.3 Mapping OWASP LLM ↔ MITRE ATLAS
# owasp-llm-to-atlas-mapping-2026.yml
# Mapping entre categories OWASP LLM Top 10 2025 et techniques MITRE ATLAS v5.4.0.
# Utile pour un threat modeling structure : OWASP pour la classification,
# ATLAS pour le detail des TTPs.
LLM01_Prompt_Injection:
atlas_techniques:
- AML.T0051.000 # Prompt Injection Direct
- AML.T0051.001 # Prompt Injection Indirect
- AML.T0054 # LLM Jailbreak
mitigations_atlas:
- AML.M0015 # Adversarial Input Detection
- AML.M0017 # Model Hardening
LLM04_Data_Model_Poisoning:
atlas_techniques:
- AML.T0018 # Backdoor ML Model
- AML.T0019 # Publish Poisoned Datasets
- AML.T0020 # Poison Training Data
mitigations_atlas:
- AML.M0005 # Control Access to ML Models and Data
- AML.M0007 # Sanitize Training Data
LLM06_Excessive_Agency:
atlas_techniques:
- AML.T0053 # LLM Plugin Compromise
- AML.T0077 # LLM Meta Prompt Extraction
mitigations_atlas:
- AML.M0003 # Model Hardening
- AML.M0030 # User Training
LLM10_Unbounded_Consumption:
atlas_techniques:
- AML.T0029 # Denial of ML Service
- AML.T0034 # Cost Harvesting
mitigations_atlas:
- AML.M0004 # Restrict Number of ML Model Queries4. Phase 2 : Red teaming offensif (2 mois)
4.1 Taxonomie des attaques
Quatre familles d'attaques à maîtriser, chacune avec ses variantes :
Prompt Injection
- Directe : manipulation via user input.
- Indirecte : injection via données tierces (web page, email, document RAG, output d'un outil agent).
- Adversarial suffix : suffixes courts qui jailbreakent (Zou et al., « Universal and Transferable Adversarial Attacks on Aligned Language Models », 2023).
- Multi-turn : construction progressive sur plusieurs tours.
Data Extraction
- Training data extraction : exfiltration de training data via prompts crafted (Carlini et al., 2021, 2023).
- System prompt leakage : extraction du prompt système par reformulation, rôle-play, encodage.
- Model inversion : reconstruction d'attributs sensibles à partir d'inférences.
- Membership inference : déterminer si une donnée était dans le training set.
Poisoning
- Data poisoning : injection d'exemples malveillants dans le training ou fine-tuning (BadNets, Gu et al.).
- Embedding poisoning : contamination d'une base vectorielle RAG.
- Model poisoning : compromission supply chain (modèle HuggingFace tiers trojané).
- Backdoor : triggers cachés activés par un input spécifique.
Resource exhaustion et cost attacks
- Prompt amplification : prompt qui force des réponses très longues.
- Agent loop abuse : exploitation des boucles agent pour épuiser tokens/coût.
- Context flooding : saturation du context window.
4.2 Outils de red teaming 2026
| Outil | Éditeur | Force | Licence |
|---|---|---|---|
| PyRIT | Microsoft (AI Red Team) | Scalabilité, intégration Azure, extensible | MIT |
| Garak | NVIDIA | Scanner complet, 50+ probes, rapports | Apache 2.0 |
| PromptFoo | Open source | CLI + framework, intégration CI/CD | MIT |
| DeepTeam | Confident AI | Focus OWASP LLM Top 10 + MITRE ATLAS | MIT |
| Promptmap | utkusen | Automated prompt injection | MIT |
| llm-attacks | Zou et al. | Adversarial suffixes recherche | Apache 2.0 |
| Lakera Red Team | Lakera | Plateforme managée, benchmark | Commercial |
| Mindgard | Mindgard | Plateforme enterprise, ATLAS adviser | Commercial |
4.3 Exemple de scan Garak
# garak-scan-app-cible.sh
# Scan LLM application via Garak sur une instance de test.
# Cible : un endpoint /chat exposant Claude via Anthropic API.
# Installation
pip install garak==0.12.0
# Scan complet OWASP LLM + jailbreaks
garak \
--model_type rest \
--model_name my-chat-api \
--generator_option_file generator_config.json \
--probes owasp,dan,realtoxicityprompts,encoding \
--report_prefix scan-$(date +%Y%m%d) \
--parallel_attempts 4
# Generator config extrait (rest.json) :
# {
# "rest": {
# "RestGenerator": {
# "uri": "https://api.mycompany.internal/v1/chat",
# "method": "POST",
# "headers": {"Authorization": "Bearer $API_KEY"},
# "req_template_json_object": {"prompt": "$INPUT"},
# "response_json": true,
# "response_json_field": "completion"
# }
# }
# }4.4 CTF et environnements d'entraînement
Pratique quotidienne recommandée pendant la phase 2 :
- Gandalf de Lakera (gandalf.lakera.ai) : 8 niveaux progressifs de prompt injection, accès gratuit.
- AI Village à DEF CON : compétitions annuelles LLM red team, archives publiques.
- HackAPrompt : compétitions open source de prompt injection.
- OWASP AI Exchange (genai.owasp.org) : scénarios et threat models.
- PromptFoo Red Team : templates prêts à l'emploi pour exercices structurés.
5. Phase 3 : Architectures défensives (2 mois)
5.1 Défense en profondeur LLM
Principe clé : aucune défense isolée n'est suffisante, empiler les couches. Architecture de référence pour une application LLM production :
- Input validation : schema strict (Pydantic), taille max, caractères autorisés, encoding check.
- Prompt sanitization : détection et échappement des tentatives d'injection.
- Input classifier : LLM-as-judge ou modèle dédié (Lakera, Prompt Shield d'Azure) pour classifier intent.
- Prompt template sécurisé : séparation claire system / user / tool, impossible pour l'user d'influencer la partie system.
- Execution : LLM avec paramètres contraints (temperature basse pour tâches sensibles, max_tokens bornés, timeout).
- Output filter : regex + LLM judge + content classifier pour détecter fuites, contenus interdits, formats non conformes.
- Output encoding : encoding contextuel strict avant affichage (XSS protection si sortie rendue HTML, SQL parameterized si passée à DB).
- Logging et monitoring : prompt + réponse + metadata pour audit ex-post.
- Rate limiting et cost control : tokens/min par user, cost budget par endpoint.
- Human-in-the-loop : validation humaine obligatoire sur actions sensibles (paiement, modification données, envoi email).
5.2 Guardrails frameworks 2026
| Framework | Éditeur | Modèle | Force |
|---|---|---|---|
| NVIDIA NeMo Guardrails | NVIDIA | Open source | Flexibilité Colang, intégration LLM local |
| Guardrails AI | Guardrails.ai | Open source + commercial | Validation structurée output, large catalogue |
| Rebuff | Rebuff.ai | Open source | Focus prompt injection, canary tokens |
| Lakera Guard | Lakera | Commercial | API production, latence faible, SOC 2 |
| Azure AI Content Safety / Prompt Shield | Microsoft | Commercial | Intégration Azure OpenAI |
| AWS Bedrock Guardrails | AWS | Commercial | Intégration Bedrock |
| Protect AI | Protect AI | Commercial | Focus supply chain ML |
| Portkey Guardrails | Portkey | Commercial | Gateway multi-modèles |
5.3 Moindre privilège pour agents
L'un des risques majeurs 2026 (OWASP LLM06 Excessive Agency) : donner à un agent LLM des capacités dont il n'a pas besoin, sans validation humaine.
Règles concrètes :
- Chaque outil exposé au LLM doit être scopé au minimum fonctionnel (lecture seule si possible, filtre argument strict).
- Toute action destructrice (write, delete, send) passe par human-in-the-loop ou circuit breaker.
- Les secrets (clés API, credentials DB) sont en vault, jamais dans le prompt système.
- L'identité de l'agent est distincte du user : principe du « LLM doesn't impersonate the user ».
- Sandbox d'exécution pour tout code généré (e2b.dev, gVisor, Firecracker).
5.4 RAG et vector security (LLM08)
- Isolation tenant : un user d'un tenant ne doit jamais retrieve des chunks d'un autre tenant. Multi-tenancy par collection ou par filtre systématique.
- Auth sur retrieval : le LLM ne doit jamais voir de chunks que l'utilisateur n'a pas le droit de voir. Filtre row-level permission au niveau retrieval.
- Ingestion sanitization : scan contenu avant ingestion, détection prompt injection dans les sources (emails, web, PDF).
- Embedding versioning : audit trail des embeddings injectés, rollback possible en cas de compromise.
- Canary chunks : insertion volontaire de contenu piège pour détecter exfiltration/scraping.
6. Phase 4 : Compliance et gouvernance (1 mois)
6.1 EU AI Act (Regulation UE 2024/1689)
Publié au JOUE le 12 juillet 2024, entrée en vigueur progressive :
- 2 février 2025 : interdictions sur pratiques IA à risque inacceptable (manipulation comportementale, scoring social, exploitation vulnérabilités).
- 2 août 2025 : règles sur GPAI (General-Purpose AI Models) et structures de gouvernance (AI Office, AI Board).
- 2 août 2026 : règles sur systèmes à haut risque, transparence.
- 2 août 2027 : application pleine, y compris systèmes à haut risque embarqués.
Catégorisation à maîtriser : risque inacceptable (interdit), risque élevé (Annexe III : biométrie, infrastructure critique, éducation, emploi, services essentiels, application de la loi, migration, justice, démocratie), risque limité (obligation transparence), risque minimal (libre).
GPAI : obligations documentation technique, transparence training data (résumé), policy copyright, safety assessment pour modèles systémiques (>10^25 FLOPs training).
Sanctions : jusqu'à 35 M€ ou 7 % du CA mondial (pire des deux) pour violations des pratiques interdites. 15 M€ ou 3 % pour autres obligations.
6.2 NIST AI RMF 1.0 et Generative AI Profile
NIST AI RMF 1.0 publié janvier 2023. Quatre fonctions : Govern, Map, Measure, Manage.
NIST AI 600-1 « Generative AI Profile » publié juillet 2024, ajoute 12 risques GenAI spécifiques (CBRN content, Confabulation, Dangerous or violent recommendations, Data privacy, Environmental impacts, Human-AI configuration, Information integrity, Information security, IP, Obscene, degrading, and/or abusive content, Toxicity, bias, and homogenization, Value chain and component integration).
6.3 ISO/IEC 42001:2023
Premier standard international de management IA (AI Management System), publié en décembre 2023. Calque la structure ISO 27001 (Plan-Do-Check-Act, clauses 4-10, Annexe A avec 38 contrôles). Certifiable par organismes accrédités. Adoption forte en Europe et Asie depuis 2024.
Annexe A couvre : policies IA, structure organisationnelle, ressources IA, impact AI systems, AI system lifecycle, data for AI, information for interested parties, use of AI systems, third-party relationships, AI customer relationship.
6.4 Autres référentiels à connaître
- ISO/IEC 23894:2023 : risk management specific to AI.
- ISO/IEC 27090 (en cours) : guidance on addressing security threats and failures in AI systems.
- Google SAIF (Secure AI Framework) : framework d'architecture sécurisée IA, 6 core elements.
- ANSSI Recommandations IA (publications 2023-2025).
- MITRE CREDS (Cybersecurity for AI) : mapping vers MITRE ATLAS.
7. Phase 5 : Portfolio et spécialisation (1 mois)
Le portfolio fait 50 % du recrutement junior LLM security en 2026. Viser trois livrables minimum :
- Un repo GitHub public avec un red team assessment structuré d'une application LLM publique (Gandalf Lakera par exemple), mapping MITRE ATLAS, rapport markdown détaillé.
- Un repo GitHub public avec une application LLM défensive de référence : RAG + agents avec NeMo Guardrails + Lakera Guard, tests de non-régression prompt injection, documentation sécurité complète.
- Un article technique original (LinkedIn long-form, Medium, blog perso) : décomposition d'une attaque récente, analyse d'un paper (ex: « Many-shot Jailbreaking » Anthropic 2024, « Best-of-N Jailbreaking » Google DeepMind 2024), proof of concept documentée.
Bonus : proposer un talk à un meetup local (OWASP Paris AI, Paris AI Village, Meetup Cybersécurité IA) ou une conférence (NDH, BreizhCTF, Le Hack, StHack).
7.1 Spécialisations possibles après la roadmap
Après 12 mois en poste junior, trois spécialisations dominent :
- AI Red Teamer : focus offensif, participation aux AI Village, DEF CON, publications de papers, trajectoire vers senior à 18-24 mois.
- AI Security Architect : focus défense à l'échelle, architecture de référence, guardrails entreprise, trajectoire lead / staff à 3-5 ans.
- MLSecOps Engineer : focus pipeline ML, supply chain modèles, data poisoning détection, SBOM ML, signature modèles. Profil hybride cyber + data science senior.
8. Budget et ordre de priorité
| Poste | Coût indicatif |
|---|---|
| Abonnement OpenAI / Anthropic / Mistral (labs) | 100-300 €/mois x 10 = 1 000-3 000 € |
| CAISP (Certified AI Security Professional) | ~500 $ |
| CSA TAISE (Trusted AI Safety Expert) | 395 $ |
| Livres (Raschka, Karpathy YouTube gratuit, etc.) | 100-200 € |
| Conférences (DEF CON AI Village virtuel, Black Hat USA virtual) | 0-500 € |
| HuggingFace Pro / Infra GPU A10/T4 pour tests | 100-300 € |
| Total roadmap complète | 2 100 - 4 900 € |
9. Après la roadmap : trajectoire 3-5 ans
| Année | Poste | Fourchette salaire brut (FR) |
|---|---|---|
| 0 (fin roadmap) | AI Security Engineer Junior | 55 000 - 75 000 € |
| +2 ans | AI Security Engineer Confirmé | 75 000 - 100 000 € |
| +4 ans | Senior AI Security Engineer / Red Teamer | 100 000 - 140 000 € |
| +6 ans | Lead AI Security / Architect | 130 000 - 180 000 € |
| +8 ans | Principal / Head of AI Security | 170 000 - 250 000 €+ |
Le marché LLM security 2026 applique un premium de 20-30 % vs profils cybersécurité généralistes selon les observatoires Practical DevSecOps et Certmage. Les postes AI Red Teamer dans les grandes scale-up et labs (OpenAI, Anthropic, Mistral, DeepMind) dépassent 200 k$ pour les profils seniors.
Points clés à retenir
- 9-12 mois de roadmap à partir d'un socle AppSec solide (2-3 ans minimum).
- OWASP LLM Top 10 2025 + MITRE ATLAS v5.4.0 : les deux référentiels standards à maîtriser.
- Red team + Blue team : les deux côtés se pratiquent en parallèle, spécialisation après 18-24 mois.
- Outils red team majeurs : PyRIT (Microsoft), Garak (NVIDIA), PromptFoo, DeepTeam, Lakera Red Team.
- Guardrails de référence : NeMo Guardrails, Guardrails AI, Rebuff, Lakera Guard, Azure Prompt Shield.
- Compliance : EU AI Act applicable par phases 2025-2027, NIST AI RMF GenAI Profile, ISO 42001 certifiable.
- Portfolio > certification : 3 repos + 1 talk valent plus qu'une certif isolée.
- Budget 2 100 - 4 900 € dont 50 % sur les APIs LLM en phases labs.


