Au-delà du simple prompt en une phrase, le prompting avancé est une discipline à part entière. Maîtriser ces techniques transforme radicalement la qualité et la fiabilité des sorties LLM — la différence entre un outil de curiosité et un outil de production.

Chain-of-Thought : forcer le raisonnement étape par étape

Le Chain-of-Thought (CoT) consiste à demander explicitement au modèle de raisonner avant de répondre. Cette technique améliore significativement les performances sur les tâches complexes : math, logique, analyse multi-étapes.

Classique : ajouter « Raisonne étape par étape » ou « Let's think step by step »
Zero-shot CoT : fonctionne sans exemples sur les grands modèles (GPT-4, Claude)
Few-shot CoT : fournir des exemples de raisonnement pour guider le modèle
Self-consistency : générer plusieurs chaînes de raisonnement et voter pour la réponse majoritaire

Few-shot et zero-shot learning

Le few-shot consiste à inclure dans le prompt 2 à 5 exemples (input → output) du comportement attendu. C'est une forme d'apprentissage dans le contexte, sans réentraînement du modèle. Le zero-shot se base uniquement sur les instructions.

Choisir des exemples représentatifs et diversifiés de la tâche
Respecter le même format pour tous les exemples (cohérence du signal)
Placer les exemples avant la question, pas après
Limiter à 3-5 exemples (au-delà, le gain marginal est faible et le coût en tokens augmente)

System prompts et persona

Le system prompt définit le comportement global du modèle : son rôle, ses contraintes, son style. C'est le paramètre le plus puissant pour créer un assistant spécialisé cohérent. Un bon system prompt remplace des centaines de lignes d'instructions répétées.

Définir clairement le rôle : « Tu es un expert fiscal français avec 15 ans d'expérience »
Définir le comportement en cas d'incertitude : « Si tu ne sais pas, dis-le clairement »
Définir le format de sortie par défaut : JSON, liste, tableau, prose
Définir les sujets hors-périmètre : « Ne réponds pas aux questions non liées à X »

RAG-aware prompting

Quand votre LLM reçoit des chunks de documents comme contexte (RAG), le prompt doit guider le modèle à utiliser uniquement les sources fournies, à citer ses références et à signaler quand l'information est manquante.

La règle d'or du RAG prompting : « Si la réponse n'est pas dans les sources fournies, réponds 'Je ne trouve pas cette information dans les documents disponibles.' »

Prompt chaining : décomposer les tâches complexes

Le prompt chaining consiste à diviser une tâche complexe en sous-tâches séquentielles, où la sortie d'un prompt devient l'entrée du suivant. Cette approche est plus fiable et plus facile à déboguer que de tout demander en un seul prompt.

Étape 1 : extraction des informations clés du document source
Étape 2 : structuration des informations en format intermédiaire (JSON)
Étape 3 : génération du rapport final à partir du JSON structuré
Validation : vérification automatique du format de sortie à chaque étape

Paramètres de sampling : température et top-p

La température contrôle l'aléatoire de la génération. Une température de 0 est quasi déterministe (réponse la plus probable, mais de légères variations restent possibles), une température élevée (>1) est créative mais moins fiable. Pour des tâches structurées, gardez la température entre 0 et 0.3.

Température 0 : extraction d'informations, classification, SQL, JSON — réponses déterministes
Température 0.3-0.7 : rédaction professionnelle, analyse, résumé
Température 0.7-1.0 : créativité, brainstorming, génération de variantes
Top-p (nucleus sampling) : complémentaire à la température, contrôle le vocabulaire sélectionné

Protection anti-injection

En production, validez et filtrez toujours les entrées utilisateur avant de les injecter dans vos prompts. L'injection de prompt est une vraie surface d'attaque sur les applications LLM exposées.

Chain-of-Thought : forcer le raisonnement étape par étape

Classique : ajouter « Raisonne étape par étape » ou « Let's think step by step »

Zero-shot CoT : fonctionne sans exemples sur les grands modèles (GPT-4, Claude)

Few-shot CoT : fournir des exemples de raisonnement pour guider le modèle

Self-consistency : générer plusieurs chaînes de raisonnement et voter pour la réponse majoritaire

Few-shot et zero-shot learning

Choisir des exemples représentatifs et diversifiés de la tâche

Respecter le même format pour tous les exemples (cohérence du signal)

Placer les exemples avant la question, pas après

Limiter à 3-5 exemples (au-delà, le gain marginal est faible et le coût en tokens augmente)

System prompts et persona

Définir clairement le rôle : « Tu es un expert fiscal français avec 15 ans d'expérience »

Définir le comportement en cas d'incertitude : « Si tu ne sais pas, dis-le clairement »

Définir le format de sortie par défaut : JSON, liste, tableau, prose

Définir les sujets hors-périmètre : « Ne réponds pas aux questions non liées à X »

RAG-aware prompting

La règle d'or du RAG prompting : « Si la réponse n'est pas dans les sources fournies, réponds 'Je ne trouve pas cette information dans les documents disponibles.' »

Prompt chaining : décomposer les tâches complexes

Étape 1 : extraction des informations clés du document source

Étape 2 : structuration des informations en format intermédiaire (JSON)

Étape 3 : génération du rapport final à partir du JSON structuré

Validation : vérification automatique du format de sortie à chaque étape

Paramètres de sampling : température et top-p

Température 0 : extraction d'informations, classification, SQL, JSON — réponses déterministes

Température 0.3-0.7 : rédaction professionnelle, analyse, résumé

Température 0.7-1.0 : créativité, brainstorming, génération de variantes

Top-p (nucleus sampling) : complémentaire à la température, contrôle le vocabulaire sélectionné

Protection anti-injection

En production, validez et filtrez toujours les entrées utilisateur avant de les injecter dans vos prompts. L'injection de prompt est une vraie surface d'attaque sur les applications LLM exposées.

Techniques de prompting avancé pour les professionnels

Chain-of-Thought : forcer le raisonnement étape par étape

Few-shot et zero-shot learning

System prompts et persona

RAG-aware prompting

Prompt chaining : décomposer les tâches complexes

Paramètres de sampling : température et top-p

RAG en production : fiabilité, sources, sécurité

Prompting pro : une structure simple et fiable

Fine-tuning de LLM : adapter un modèle à votre domaine

Besoin d'un accompagnement IA ?

Techniques de prompting avancé pour les professionnels

Chain-of-Thought : forcer le raisonnement étape par étape

Few-shot et zero-shot learning

System prompts et persona

RAG-aware prompting

Prompt chaining : décomposer les tâches complexes

Paramètres de sampling : température et top-p

RAG en production : fiabilité, sources, sécurité

Prompting pro : une structure simple et fiable

Fine-tuning de LLM : adapter un modèle à votre domaine

Besoin d'un accompagnement IA ?