Combien de temps pour devenir opérationnel en LLM security ?

9 à 12 mois à temps plein pour atteindre un niveau permettant de prendre un premier poste AI Security Engineer ou LLM Red Teamer, en partant d'un socle cybersécurité applicative solide (SAST, DAST, AppSec, 2-3 ans minimum) et d'une base Python/ML. Structure recommandée : 2 mois prérequis ML/LLM, 2 mois OWASP LLM Top 10 2025 et MITRE ATLAS v5, 2 mois red teaming offensif (prompt injection directe et indirecte, jailbreaks, model extraction, data poisoning), 2 mois architectures défensives (guardrails, filtering, sandboxing, least privilege agents), 1 mois compliance (EU AI Act, NIST AI RMF, ISO 42001), 1 mois livrables portfolio. Sans base cyber préalable, ajouter 6-12 mois d'AppSec avant de commencer.

Quels prérequis techniques indispensables ?

Trois prérequis non négociables en 2026. 1) AppSec fondamentale : OWASP Top 10 Web 2021 maîtrisé, SAST et DAST pratiqués, injection SQL/XSS/SSRF compris au niveau exploitation. 2) Python intermédiaire : asyncio, requests, manipulation JSON, environnement virtuel, packaging, debugging. 3) Notions ML : tokenization, embeddings, transformer architecture niveau lecture (pas besoin de faire de l'entraînement from scratch), RAG (Retrieval-Augmented Generation), agents, tool calling, function calling. La partie Data Science pointue (MLOps, entraînement, fine-tuning) n'est pas obligatoire pour la LLM security côté application — elle est indispensable pour la LLM security côté pipeline ML. Les deux profils sont distincts en 2026.

OWASP LLM Top 10 ou MITRE ATLAS en premier ?

OWASP LLM Top 10 2025 d'abord : c'est la taxonomie standard pour les vulnérabilités côté application LLM, orientée AppSec. 10 vulnérabilités structurées (LLM01 Prompt Injection, LLM02 Sensitive Information Disclosure, LLM03 Supply Chain, LLM04 Data and Model Poisoning, LLM05 Improper Output Handling, LLM06 Excessive Agency, LLM07 System Prompt Leakage, LLM08 Vector and Embedding Weaknesses, LLM09 Misinformation, LLM10 Unbounded Consumption) avec scénarios et mitigations. MITRE ATLAS (Adversarial Threat Landscape for Artificial-Intelligence Systems, v5.4.0 février 2026, 16 tactiques, 84 techniques, 56 sous-techniques) vient ensuite : c'est la matrice TTP (Tactics, Techniques, Procedures) pour le red teaming et le threat modeling. Les deux sont complémentaires : OWASP pour structurer les défenses, ATLAS pour structurer les attaques et le détection engineering.

Quelle certification LLM security viser en 2026 ?

Trois options principales en 2026. 1) CAISP (Certified AI Security Professional, Practical DevSecOps, ~500 $) : certification technique labs-heavy, focus red teaming, exploitation prompt injection, RAG poisoning, défenses pratiques. Recommandée pour profils AppSec en reconversion IA. 2) SANS SEC545 (Cloud Security Architecture and Operations, ~8 000 $) : couvre la sécurité cloud incluant workloads IA/ML, très complète mais coût élevé. 3) CSA TAISE (Trusted AI Safety Expert, 395 $) : certification Cloud Security Alliance sortie en 2024, focus safety et gouvernance, complémentaire de CCSK. Les certifications propriétaires (Google SAIF, Microsoft AI Fundamentals) sont utiles mais pas recruteuses en elles-mêmes. Le portfolio GitHub et les CTF AI (Gandalf, AI Security Bootcamp, AI Village DEF CON) valent plus que la certification en 2026.

Red team LLM vs Blue team LLM : quel parcours ?

Les deux parcours divergent à mi-roadmap. Red team LLM : focus offensif, maîtrise des catégories OWASP LLM01 (Prompt Injection directe et indirecte), LLM04 (Data Poisoning), LLM06 (Excessive Agency), outils PyRIT (Microsoft), Garak (NVIDIA), PromptFoo, DeepTeam. Intégration MITRE ATLAS, exercices CTF comme Gandalf (Lakera) ou l'AI Village. Blue team LLM : focus défensif, guardrails (NVIDIA NeMo Guardrails, Guardrails AI, Rebuff, Lakera Guard), monitoring (prompt logging, content filtering, anomaly detection sur latence et longueur), architecture moindre privilège pour agents et RAG. Les profils seniors maîtrisent les deux ; les juniors se spécialisent d'abord sur un côté puis basculent après 18-24 mois.

Faut-il apprendre à entraîner un LLM ?

Non, pas pour la LLM security appliquée. 90 % des missions LLM security 2026 portent sur des applications utilisant des modèles tiers (OpenAI GPT-4 et GPT-5, Anthropic Claude Sonnet 4.6 et Opus 4.7, Mistral Large, Meta Llama 3.3 et 4 via Bedrock/Vertex/HuggingFace). L'enjeu sécurité est côté application : prompt engineering, prompt injection, RAG, agents, tool calls, validation inputs et outputs. Comprendre conceptuellement ce que fait un transformer, un embedding, un fine-tune (LoRA, QLoRA) et un alignement RLHF est suffisant. Les 10 % restants concernent la sécurité du pipeline ML lui-même (MLSecOps, model supply chain, data poisoning en training) et requièrent des compétences Data Science spécifiques — c'est un parcours distinct.

LLM Security

Roadmap LLM Security 2026 : 9-12 mois progressifs

Roadmap LLM security 2026 : 6 phases sur 9-12 mois, OWASP LLM Top 10 2025, MITRE ATLAS v5, red teaming, guardrails, NIST AI RMF, EU AI Act, ISO 42001, CAISP.

Naim Aouaichia

23 avril 202619 min de lecture

LLM Security
Roadmap
OWASP LLM Top 10
MITRE ATLAS
Red Team IA
Guardrails
EU AI Act
NIST AI RMF

La LLM security (sécurité des Large Language Models appliqués) couvre la protection des applications utilisant des modèles de langage tiers (OpenAI GPT-4/5, Anthropic Claude Sonnet 4.6/Opus 4.7, Mistral Large, Meta Llama 3.3/4) contre les vulnérabilités spécifiques de l'IA générative formalisées par OWASP LLM Top 10 2025 et MITRE ATLAS v5.4.0 (février 2026, 16 tactiques et 84 techniques). Atteindre un niveau opérationnel AI Security Engineer ou LLM Red Teamer demande 9 à 12 mois à temps plein, en partant d'un socle AppSec solide (OWASP Top 10 Web 2021, SAST/DAST, 2-3 ans minimum) et d'une base Python/ML. La roadmap se structure en six phases : prérequis ML et LLM (2 mois), OWASP LLM Top 10 2025 et MITRE ATLAS (2 mois), red teaming offensif avec PyRIT, Garak et PromptFoo (2 mois), architectures défensives et guardrails (NVIDIA NeMo Guardrails, Guardrails AI, Rebuff, Lakera Guard) (2 mois), compliance EU AI Act / NIST AI RMF / ISO 42001 (1 mois), et livrables portfolio (1 mois). Budget total : 800-2 500 € hors abonnements API (100-300 €/mois selon intensité labs).

1. Vue d'ensemble de la roadmap

La roadmap cible un profil AppSec ou DevSecOps avec 2-3 ans d'expérience minimum qui veut pivoter vers la LLM security. Pour un débutant cybersécurité sans base AppSec, prévoir 6-12 mois d'AppSec classique avant d'entamer cette roadmap.

Phase	Durée	Focus	Livrable principal
0 – Prérequis ML/LLM	2 mois	Transformer, tokenization, embeddings, RAG, agents	Lab RAG fonctionnel + notebook
1 – OWASP LLM Top 10 + MITRE ATLAS	2 mois	10 vulnérabilités et 84 techniques	Matrice d'attaques documentée
2 – Red teaming offensif	2 mois	PyRIT, Garak, PromptFoo, DeepTeam	Rapport red team sur app cible
3 – Défenses et guardrails	2 mois	NeMo Guardrails, Guardrails AI, Rebuff, Lakera	Architecture de défense publiée
4 – Compliance et gouvernance	1 mois	EU AI Act, NIST AI RMF, ISO 42001	Plan de conformité appliqué
5 – Portfolio et spécialisation	1 mois	GitHub, blog, conférence	3 projets publiés, 1 talk

2. Phase 0 : Prérequis ML et LLM (2 mois)

2.1 Python opérationnel (si absent)

Niveau attendu : asyncio pour les appels concurrents aux APIs LLM, requests / httpx / SDK officiels (openai, anthropic, mistralai, google-genai), manipulation JSON complexe, gestion d'environnement (uv ou venv + pip), packaging (pyproject.toml), debugging et profiling.

Référence : Real Python, Python Official Tutorial, livre « Fluent Python » de Luciano Ramalho (O'Reilly, 2e édition 2022).

2.2 Transformer et LLM au niveau conceptuel (3-4 semaines)

Pas d'entraînement from scratch. Objectif : comprendre ce qui se passe dans la boîte noire pour raisonner sur ses failles.

Tokenization : BPE (Byte-Pair Encoding), WordPiece, SentencePiece, tokenizer d'un LLM moderne (tiktoken pour OpenAI, transformers HuggingFace).
Architecture Transformer : papier original « Attention Is All You Need » (Vaswani et al., 2017), self-attention, multi-head attention, residual connections.
Training phases : pre-training next-token, supervised fine-tuning (SFT), RLHF (Reinforcement Learning from Human Feedback), DPO (Direct Preference Optimization).
Embeddings : représentation vectorielle, dimensions typiques (OpenAI text-embedding-3-large = 3072 dims, BGE-large = 1024 dims), distance cosinus, recherche vectorielle.
Inference : temperature, top-p, top-k, greedy decoding, beam search, context window (GPT-4.1 1M tokens, Claude Sonnet 4.6 1M, Gemini 2.5 Pro 2M), sliding attention.

Ressources : The Illustrated Transformer de Jay Alammar, cours Stanford CS224N (NLP with Deep Learning), Build a Large Language Model (From Scratch) de Sebastian Raschka (2024).

2.3 RAG et agents (3-4 semaines)

RAG (Retrieval-Augmented Generation) : combinaison LLM + base vectorielle pour enrichir le prompt avec du contexte externe. Stack classique : LangChain ou LlamaIndex côté orchestration, ChromaDB / Qdrant / Pinecone / pgvector côté vecteur.

Agents : LLM + boucle d'exécution + accès à des outils externes (web browsing, code execution, bases de données, APIs). Patterns clés : ReAct (Yao et al., 2022), Tree-of-Thoughts (Yao et al., 2023), function calling OpenAI, tool use Anthropic, Model Context Protocol (MCP, publié par Anthropic en novembre 2024).

2.4 Livrable phase 0

Un lab GitHub public avec :

Un wrapper minimal appelant 3 APIs LLM (OpenAI, Anthropic, Mistral) avec comparaison de réponses.
Un RAG fonctionnel : ingestion de PDF, chunking, embedding, stockage vectoriel (Chroma local), retrieval, prompt avec contexte.
Un agent minimal avec 2 outils (websearch via DuckDuckGo API, calcul).

Cette base servira de terrain d'attaque et de défense pour les phases suivantes.

3. Phase 1 : OWASP LLM Top 10 2025 et MITRE ATLAS (2 mois)

3.1 OWASP LLM Top 10 2025 – décomposition

La version 2025 (publiée en novembre 2024, version courante 2025 en 2026) structure les 10 vulnérabilités applicatives les plus critiques des applications LLM. Changements majeurs vs version 2023 : ajout Excessive Agency, System Prompt Leakage, Vector/Embedding Weaknesses, Misinformation, Unbounded Consumption. Rangs réordonnés : Sensitive Information Disclosure monte de #6 à #2, Supply Chain monte de #5 à #3, Improper Output Handling descend de #2 à #5.

ID	Nom	Priorité	Pattern défaut
LLM01	Prompt Injection	Critique	Défense en profondeur, séparation prompts système/utilisateur
LLM02	Sensitive Information Disclosure	Critique	Data classification, redaction, tokenization PII
LLM03	Supply Chain	Élevée	SBOM ML, signature modèles, vetting datasets
LLM04	Data and Model Poisoning	Élevée	Provenance dataset, integrity check, canary data
LLM05	Improper Output Handling	Élevée	Output encoding, validation, sandbox exécution
LLM06	Excessive Agency	Élevée	Moindre privilège, human-in-the-loop, scope agents
LLM07	System Prompt Leakage	Moyenne	Pas de secrets en system prompt, abstraction role-based
LLM08	Vector and Embedding Weaknesses	Moyenne	Isolation tenant, auth sur retrieval, scan embeddings
LLM09	Misinformation	Moyenne	Citation sources, verification chain, confidence scoring
LLM10	Unbounded Consumption	Moyenne	Rate limiting, max tokens, cost alerts

Pour approfondir LLM01, voir la ressource dédiée LLM01 Prompt Injection qui détaille les mécanismes directs et indirects, les adversarial suffixes (Zou et al., 2023), et les architectures de défense en profondeur.

3.2 MITRE ATLAS v5.4.0 – décomposition

ATLAS (Adversarial Threat Landscape for Artificial-Intelligence Systems) est la matrice TTP pour le threat modeling IA, modelée sur ATT&CK. Version 5.4.0 de février 2026 : 16 tactiques, 84 techniques, 56 sous-techniques, 32 mitigations, 42 case studies réels.

16 tactiques (ordre d'attaque classique) : Reconnaissance, Resource Development, Initial Access, ML Model Access, Execution, Persistence, Privilege Escalation, Defense Evasion, Credential Access, Discovery, Collection, ML Attack Staging, Exfiltration, Impact, Command and Control, Lateral Movement.

Techniques récentes importantes (ajouts 2025-2026) :

AML.T0051 Prompt Injection (Direct, Indirect).
AML.T0052 Phishing (for Model Access).
AML.T0077 LLM Plugin Compromise.
Publish Poisoned AI Agent Tool (T5.4.0 février 2026).
Escape to Host (agent container escape, février 2026).

3.3 Mapping OWASP LLM ↔ MITRE ATLAS

# owasp-llm-to-atlas-mapping-2026.yml
# Mapping entre categories OWASP LLM Top 10 2025 et techniques MITRE ATLAS v5.4.0.
# Utile pour un threat modeling structure : OWASP pour la classification,
# ATLAS pour le detail des TTPs.
 
LLM01_Prompt_Injection:
  atlas_techniques:
    - AML.T0051.000  # Prompt Injection Direct
    - AML.T0051.001  # Prompt Injection Indirect
    - AML.T0054      # LLM Jailbreak
  mitigations_atlas:
    - AML.M0015      # Adversarial Input Detection
    - AML.M0017      # Model Hardening
 
LLM04_Data_Model_Poisoning:
  atlas_techniques:
    - AML.T0018      # Backdoor ML Model
    - AML.T0019      # Publish Poisoned Datasets
    - AML.T0020      # Poison Training Data
  mitigations_atlas:
    - AML.M0005      # Control Access to ML Models and Data
    - AML.M0007      # Sanitize Training Data
 
LLM06_Excessive_Agency:
  atlas_techniques:
    - AML.T0053      # LLM Plugin Compromise
    - AML.T0077      # LLM Meta Prompt Extraction
  mitigations_atlas:
    - AML.M0003      # Model Hardening
    - AML.M0030      # User Training
 
LLM10_Unbounded_Consumption:
  atlas_techniques:
    - AML.T0029      # Denial of ML Service
    - AML.T0034      # Cost Harvesting
  mitigations_atlas:
    - AML.M0004      # Restrict Number of ML Model Queries

4. Phase 2 : Red teaming offensif (2 mois)

4.1 Taxonomie des attaques

Quatre familles d'attaques à maîtriser, chacune avec ses variantes :

Prompt Injection

Directe : manipulation via user input.
Indirecte : injection via données tierces (web page, email, document RAG, output d'un outil agent).
Adversarial suffix : suffixes courts qui jailbreakent (Zou et al., « Universal and Transferable Adversarial Attacks on Aligned Language Models », 2023).
Multi-turn : construction progressive sur plusieurs tours.

Data Extraction

Training data extraction : exfiltration de training data via prompts crafted (Carlini et al., 2021, 2023).
System prompt leakage : extraction du prompt système par reformulation, rôle-play, encodage.
Model inversion : reconstruction d'attributs sensibles à partir d'inférences.
Membership inference : déterminer si une donnée était dans le training set.

Poisoning

Data poisoning : injection d'exemples malveillants dans le training ou fine-tuning (BadNets, Gu et al.).
Embedding poisoning : contamination d'une base vectorielle RAG.
Model poisoning : compromission supply chain (modèle HuggingFace tiers trojané).
Backdoor : triggers cachés activés par un input spécifique.

Resource exhaustion et cost attacks

Prompt amplification : prompt qui force des réponses très longues.
Agent loop abuse : exploitation des boucles agent pour épuiser tokens/coût.
Context flooding : saturation du context window.

4.2 Outils de red teaming 2026

Outil	Éditeur	Force	Licence
PyRIT	Microsoft (AI Red Team)	Scalabilité, intégration Azure, extensible	MIT
Garak	NVIDIA	Scanner complet, 50+ probes, rapports	Apache 2.0
PromptFoo	Open source	CLI + framework, intégration CI/CD	MIT
DeepTeam	Confident AI	Focus OWASP LLM Top 10 + MITRE ATLAS	MIT
Promptmap	utkusen	Automated prompt injection	MIT
llm-attacks	Zou et al.	Adversarial suffixes recherche	Apache 2.0
Lakera Red Team	Lakera	Plateforme managée, benchmark	Commercial
Mindgard	Mindgard	Plateforme enterprise, ATLAS adviser	Commercial

4.3 Exemple de scan Garak

# garak-scan-app-cible.sh
# Scan LLM application via Garak sur une instance de test.
# Cible : un endpoint /chat exposant Claude via Anthropic API.
 
# Installation
pip install garak==0.12.0
 
# Scan complet OWASP LLM + jailbreaks
garak \
  --model_type rest \
  --model_name my-chat-api \
  --generator_option_file generator_config.json \
  --probes owasp,dan,realtoxicityprompts,encoding \
  --report_prefix scan-$(date +%Y%m%d) \
  --parallel_attempts 4
 
# Generator config extrait (rest.json) :
# {
#   "rest": {
#     "RestGenerator": {
#       "uri": "https://api.mycompany.internal/v1/chat",
#       "method": "POST",
#       "headers": {"Authorization": "Bearer $API_KEY"},
#       "req_template_json_object": {"prompt": "$INPUT"},
#       "response_json": true,
#       "response_json_field": "completion"
#     }
#   }
# }

4.4 CTF et environnements d'entraînement

Pratique quotidienne recommandée pendant la phase 2 :

Gandalf de Lakera (gandalf.lakera.ai) : 8 niveaux progressifs de prompt injection, accès gratuit.
AI Village à DEF CON : compétitions annuelles LLM red team, archives publiques.
HackAPrompt : compétitions open source de prompt injection.
OWASP AI Exchange (genai.owasp.org) : scénarios et threat models.
PromptFoo Red Team : templates prêts à l'emploi pour exercices structurés.

5. Phase 3 : Architectures défensives (2 mois)

5.1 Défense en profondeur LLM

Principe clé : aucune défense isolée n'est suffisante, empiler les couches. Architecture de référence pour une application LLM production :

Input validation : schema strict (Pydantic), taille max, caractères autorisés, encoding check.
Prompt sanitization : détection et échappement des tentatives d'injection.
Input classifier : LLM-as-judge ou modèle dédié (Lakera, Prompt Shield d'Azure) pour classifier intent.
Prompt template sécurisé : séparation claire system / user / tool, impossible pour l'user d'influencer la partie system.
Execution : LLM avec paramètres contraints (temperature basse pour tâches sensibles, max_tokens bornés, timeout).
Output filter : regex + LLM judge + content classifier pour détecter fuites, contenus interdits, formats non conformes.
Output encoding : encoding contextuel strict avant affichage (XSS protection si sortie rendue HTML, SQL parameterized si passée à DB).
Logging et monitoring : prompt + réponse + metadata pour audit ex-post.
Rate limiting et cost control : tokens/min par user, cost budget par endpoint.
Human-in-the-loop : validation humaine obligatoire sur actions sensibles (paiement, modification données, envoi email).

5.2 Guardrails frameworks 2026

Framework	Éditeur	Modèle	Force
NVIDIA NeMo Guardrails	NVIDIA	Open source	Flexibilité Colang, intégration LLM local
Guardrails AI	Guardrails.ai	Open source + commercial	Validation structurée output, large catalogue
Rebuff	Rebuff.ai	Open source	Focus prompt injection, canary tokens
Lakera Guard	Lakera	Commercial	API production, latence faible, SOC 2
Azure AI Content Safety / Prompt Shield	Microsoft	Commercial	Intégration Azure OpenAI
AWS Bedrock Guardrails	AWS	Commercial	Intégration Bedrock
Protect AI	Protect AI	Commercial	Focus supply chain ML
Portkey Guardrails	Portkey	Commercial	Gateway multi-modèles

5.3 Moindre privilège pour agents

L'un des risques majeurs 2026 (OWASP LLM06 Excessive Agency) : donner à un agent LLM des capacités dont il n'a pas besoin, sans validation humaine.

Règles concrètes :

Chaque outil exposé au LLM doit être scopé au minimum fonctionnel (lecture seule si possible, filtre argument strict).
Toute action destructrice (write, delete, send) passe par human-in-the-loop ou circuit breaker.
Les secrets (clés API, credentials DB) sont en vault, jamais dans le prompt système.
L'identité de l'agent est distincte du user : principe du « LLM doesn't impersonate the user ».
Sandbox d'exécution pour tout code généré (e2b.dev, gVisor, Firecracker).

5.4 RAG et vector security (LLM08)

Isolation tenant : un user d'un tenant ne doit jamais retrieve des chunks d'un autre tenant. Multi-tenancy par collection ou par filtre systématique.
Auth sur retrieval : le LLM ne doit jamais voir de chunks que l'utilisateur n'a pas le droit de voir. Filtre row-level permission au niveau retrieval.
Ingestion sanitization : scan contenu avant ingestion, détection prompt injection dans les sources (emails, web, PDF).
Embedding versioning : audit trail des embeddings injectés, rollback possible en cas de compromise.
Canary chunks : insertion volontaire de contenu piège pour détecter exfiltration/scraping.

6. Phase 4 : Compliance et gouvernance (1 mois)

6.1 EU AI Act (Regulation UE 2024/1689)

Publié au JOUE le 12 juillet 2024, entrée en vigueur progressive :

2 février 2025 : interdictions sur pratiques IA à risque inacceptable (manipulation comportementale, scoring social, exploitation vulnérabilités).
2 août 2025 : règles sur GPAI (General-Purpose AI Models) et structures de gouvernance (AI Office, AI Board).
2 août 2026 : règles sur systèmes à haut risque, transparence.
2 août 2027 : application pleine, y compris systèmes à haut risque embarqués.

Catégorisation à maîtriser : risque inacceptable (interdit), risque élevé (Annexe III : biométrie, infrastructure critique, éducation, emploi, services essentiels, application de la loi, migration, justice, démocratie), risque limité (obligation transparence), risque minimal (libre).

GPAI : obligations documentation technique, transparence training data (résumé), policy copyright, safety assessment pour modèles systémiques (>10^25 FLOPs training).

Sanctions : jusqu'à 35 M€ ou 7 % du CA mondial (pire des deux) pour violations des pratiques interdites. 15 M€ ou 3 % pour autres obligations.

6.2 NIST AI RMF 1.0 et Generative AI Profile

NIST AI RMF 1.0 publié janvier 2023. Quatre fonctions : Govern, Map, Measure, Manage.

NIST AI 600-1 « Generative AI Profile » publié juillet 2024, ajoute 12 risques GenAI spécifiques (CBRN content, Confabulation, Dangerous or violent recommendations, Data privacy, Environmental impacts, Human-AI configuration, Information integrity, Information security, IP, Obscene, degrading, and/or abusive content, Toxicity, bias, and homogenization, Value chain and component integration).

6.3 ISO/IEC 42001:2023

Premier standard international de management IA (AI Management System), publié en décembre 2023. Calque la structure ISO 27001 (Plan-Do-Check-Act, clauses 4-10, Annexe A avec 38 contrôles). Certifiable par organismes accrédités. Adoption forte en Europe et Asie depuis 2024.

Annexe A couvre : policies IA, structure organisationnelle, ressources IA, impact AI systems, AI system lifecycle, data for AI, information for interested parties, use of AI systems, third-party relationships, AI customer relationship.

6.4 Autres référentiels à connaître

ISO/IEC 23894:2023 : risk management specific to AI.
ISO/IEC 27090 (en cours) : guidance on addressing security threats and failures in AI systems.
Google SAIF (Secure AI Framework) : framework d'architecture sécurisée IA, 6 core elements.
ANSSI Recommandations IA (publications 2023-2025).
MITRE CREDS (Cybersecurity for AI) : mapping vers MITRE ATLAS.

7. Phase 5 : Portfolio et spécialisation (1 mois)

Le portfolio fait 50 % du recrutement junior LLM security en 2026. Viser trois livrables minimum :

Un repo GitHub public avec un red team assessment structuré d'une application LLM publique (Gandalf Lakera par exemple), mapping MITRE ATLAS, rapport markdown détaillé.
Un repo GitHub public avec une application LLM défensive de référence : RAG + agents avec NeMo Guardrails + Lakera Guard, tests de non-régression prompt injection, documentation sécurité complète.
Un article technique original (LinkedIn long-form, Medium, blog perso) : décomposition d'une attaque récente, analyse d'un paper (ex: « Many-shot Jailbreaking » Anthropic 2024, « Best-of-N Jailbreaking » Google DeepMind 2024), proof of concept documentée.

Bonus : proposer un talk à un meetup local (OWASP Paris AI, Paris AI Village, Meetup Cybersécurité IA) ou une conférence (NDH, BreizhCTF, Le Hack, StHack).

7.1 Spécialisations possibles après la roadmap

Après 12 mois en poste junior, trois spécialisations dominent :

AI Red Teamer : focus offensif, participation aux AI Village, DEF CON, publications de papers, trajectoire vers senior à 18-24 mois.
AI Security Architect : focus défense à l'échelle, architecture de référence, guardrails entreprise, trajectoire lead / staff à 3-5 ans.
MLSecOps Engineer : focus pipeline ML, supply chain modèles, data poisoning détection, SBOM ML, signature modèles. Profil hybride cyber + data science senior.

8. Budget et ordre de priorité

Poste	Coût indicatif
Abonnement OpenAI / Anthropic / Mistral (labs)	100-300 €/mois x 10 = 1 000-3 000 €
CAISP (Certified AI Security Professional)	~500 $
CSA TAISE (Trusted AI Safety Expert)	395 $
Livres (Raschka, Karpathy YouTube gratuit, etc.)	100-200 €
Conférences (DEF CON AI Village virtuel, Black Hat USA virtual)	0-500 €
HuggingFace Pro / Infra GPU A10/T4 pour tests	100-300 €
Total roadmap complète	2 100 - 4 900 €

9. Après la roadmap : trajectoire 3-5 ans

Année	Poste	Fourchette salaire brut (FR)
0 (fin roadmap)	AI Security Engineer Junior	55 000 - 75 000 €
+2 ans	AI Security Engineer Confirmé	75 000 - 100 000 €
+4 ans	Senior AI Security Engineer / Red Teamer	100 000 - 140 000 €
+6 ans	Lead AI Security / Architect	130 000 - 180 000 €
+8 ans	Principal / Head of AI Security	170 000 - 250 000 €+

Le marché LLM security 2026 applique un premium de 20-30 % vs profils cybersécurité généralistes selon les observatoires Practical DevSecOps et Certmage. Les postes AI Red Teamer dans les grandes scale-up et labs (OpenAI, Anthropic, Mistral, DeepMind) dépassent 200 k$ pour les profils seniors.

Points clés à retenir

9-12 mois de roadmap à partir d'un socle AppSec solide (2-3 ans minimum).
OWASP LLM Top 10 2025 + MITRE ATLAS v5.4.0 : les deux référentiels standards à maîtriser.
Red team + Blue team : les deux côtés se pratiquent en parallèle, spécialisation après 18-24 mois.
Outils red team majeurs : PyRIT (Microsoft), Garak (NVIDIA), PromptFoo, DeepTeam, Lakera Red Team.
Guardrails de référence : NeMo Guardrails, Guardrails AI, Rebuff, Lakera Guard, Azure Prompt Shield.
Compliance : EU AI Act applicable par phases 2025-2027, NIST AI RMF GenAI Profile, ISO 42001 certifiable.
Portfolio > certification : 3 repos + 1 talk valent plus qu'une certif isolée.
Budget 2 100 - 4 900 € dont 50 % sur les APIs LLM en phases labs.

Questions fréquentes

Combien de temps pour devenir opérationnel en LLM security ?
9 à 12 mois à temps plein pour atteindre un niveau permettant de prendre un premier poste AI Security Engineer ou LLM Red Teamer, en partant d'un socle cybersécurité applicative solide (SAST, DAST, AppSec, 2-3 ans minimum) et d'une base Python/ML. Structure recommandée : 2 mois prérequis ML/LLM, 2 mois OWASP LLM Top 10 2025 et MITRE ATLAS v5, 2 mois red teaming offensif (prompt injection directe et indirecte, jailbreaks, model extraction, data poisoning), 2 mois architectures défensives (guardrails, filtering, sandboxing, least privilege agents), 1 mois compliance (EU AI Act, NIST AI RMF, ISO 42001), 1 mois livrables portfolio. Sans base cyber préalable, ajouter 6-12 mois d'AppSec avant de commencer.
Quels prérequis techniques indispensables ?
Trois prérequis non négociables en 2026. 1) AppSec fondamentale : OWASP Top 10 Web 2021 maîtrisé, SAST et DAST pratiqués, injection SQL/XSS/SSRF compris au niveau exploitation. 2) Python intermédiaire : asyncio, requests, manipulation JSON, environnement virtuel, packaging, debugging. 3) Notions ML : tokenization, embeddings, transformer architecture niveau lecture (pas besoin de faire de l'entraînement from scratch), RAG (Retrieval-Augmented Generation), agents, tool calling, function calling. La partie Data Science pointue (MLOps, entraînement, fine-tuning) n'est pas obligatoire pour la LLM security côté application — elle est indispensable pour la LLM security côté pipeline ML. Les deux profils sont distincts en 2026.
OWASP LLM Top 10 ou MITRE ATLAS en premier ?
OWASP LLM Top 10 2025 d'abord : c'est la taxonomie standard pour les vulnérabilités côté application LLM, orientée AppSec. 10 vulnérabilités structurées (LLM01 Prompt Injection, LLM02 Sensitive Information Disclosure, LLM03 Supply Chain, LLM04 Data and Model Poisoning, LLM05 Improper Output Handling, LLM06 Excessive Agency, LLM07 System Prompt Leakage, LLM08 Vector and Embedding Weaknesses, LLM09 Misinformation, LLM10 Unbounded Consumption) avec scénarios et mitigations. MITRE ATLAS (Adversarial Threat Landscape for Artificial-Intelligence Systems, v5.4.0 février 2026, 16 tactiques, 84 techniques, 56 sous-techniques) vient ensuite : c'est la matrice TTP (Tactics, Techniques, Procedures) pour le red teaming et le threat modeling. Les deux sont complémentaires : OWASP pour structurer les défenses, ATLAS pour structurer les attaques et le détection engineering.
Quelle certification LLM security viser en 2026 ?
Trois options principales en 2026. 1) CAISP (Certified AI Security Professional, Practical DevSecOps, ~500 $) : certification technique labs-heavy, focus red teaming, exploitation prompt injection, RAG poisoning, défenses pratiques. Recommandée pour profils AppSec en reconversion IA. 2) SANS SEC545 (Cloud Security Architecture and Operations, ~8 000 $) : couvre la sécurité cloud incluant workloads IA/ML, très complète mais coût élevé. 3) CSA TAISE (Trusted AI Safety Expert, 395 $) : certification Cloud Security Alliance sortie en 2024, focus safety et gouvernance, complémentaire de CCSK. Les certifications propriétaires (Google SAIF, Microsoft AI Fundamentals) sont utiles mais pas recruteuses en elles-mêmes. Le portfolio GitHub et les CTF AI (Gandalf, AI Security Bootcamp, AI Village DEF CON) valent plus que la certification en 2026.
Red team LLM vs Blue team LLM : quel parcours ?
Les deux parcours divergent à mi-roadmap. Red team LLM : focus offensif, maîtrise des catégories OWASP LLM01 (Prompt Injection directe et indirecte), LLM04 (Data Poisoning), LLM06 (Excessive Agency), outils PyRIT (Microsoft), Garak (NVIDIA), PromptFoo, DeepTeam. Intégration MITRE ATLAS, exercices CTF comme Gandalf (Lakera) ou l'AI Village. Blue team LLM : focus défensif, guardrails (NVIDIA NeMo Guardrails, Guardrails AI, Rebuff, Lakera Guard), monitoring (prompt logging, content filtering, anomaly detection sur latence et longueur), architecture moindre privilège pour agents et RAG. Les profils seniors maîtrisent les deux ; les juniors se spécialisent d'abord sur un côté puis basculent après 18-24 mois.
Faut-il apprendre à entraîner un LLM ?
Non, pas pour la LLM security appliquée. 90 % des missions LLM security 2026 portent sur des applications utilisant des modèles tiers (OpenAI GPT-4 et GPT-5, Anthropic Claude Sonnet 4.6 et Opus 4.7, Mistral Large, Meta Llama 3.3 et 4 via Bedrock/Vertex/HuggingFace). L'enjeu sécurité est côté application : prompt engineering, prompt injection, RAG, agents, tool calls, validation inputs et outputs. Comprendre conceptuellement ce que fait un transformer, un embedding, un fine-tune (LoRA, QLoRA) et un alignement RLHF est suffisant. Les 10 % restants concernent la sécurité du pipeline ML lui-même (MLSecOps, model supply chain, data poisoning en training) et requièrent des compétences Data Science spécifiques — c'est un parcours distinct.

Découvrir la formation LLM Security

Écrit par

Naim Aouaichia

Expert cybersécurité et fondateur de Zeroday Cyber Academy

Expert cybersécurité avec un master spécialisé et un parcours hybride : développement, DevOps, DevSecOps, SOC, GRC. Fondateur de Hash24Security et Zeroday Cyber Academy. Formateur et créateur de contenu technique sur la cybersécurité appliquée, la sécurité des LLM et le DevSecOps.

llm-security
LLM01:2025 Prompt Injection - Le guide complet
Analyse technique de la vulnérabilité Prompt Injection OWASP LLM Top 10 2025 : mécanismes directs et indirects, scénarios d'attaque, défenses.

Questions fréquentes

Naim Aouaichia

À lire également

LLM01:2025 Prompt Injection - Le guide complet