Au-delà du simple prompt en une phrase, le prompting avancé est une discipline à part entière. Maîtriser ces techniques transforme radicalement la qualité et la fiabilité des sorties LLM — la différence entre un outil de curiosité et un outil de production.
Chain-of-Thought : forcer le raisonnement étape par étape
Le Chain-of-Thought (CoT) consiste à demander explicitement au modèle de raisonner avant de répondre. Cette technique améliore significativement les performances sur les tâches complexes : math, logique, analyse multi-étapes.
- Classique : ajouter « Raisonne étape par étape » ou « Let's think step by step »
- Zero-shot CoT : fonctionne sans exemples sur les grands modèles (GPT-4, Claude)
- Few-shot CoT : fournir des exemples de raisonnement pour guider le modèle
- Self-consistency : générer plusieurs chaînes de raisonnement et voter pour la réponse majoritaire
Few-shot et zero-shot learning
Le few-shot consiste à inclure dans le prompt 2 à 5 exemples (input → output) du comportement attendu. C'est une forme d'apprentissage dans le contexte, sans réentraînement du modèle. Le zero-shot se base uniquement sur les instructions.
- Choisir des exemples représentatifs et diversifiés de la tâche
- Respecter le même format pour tous les exemples (cohérence du signal)
- Placer les exemples avant la question, pas après
- Limiter à 3-5 exemples (au-delà, le gain marginal est faible et le coût en tokens augmente)
System prompts et persona
Le system prompt définit le comportement global du modèle : son rôle, ses contraintes, son style. C'est le paramètre le plus puissant pour créer un assistant spécialisé cohérent. Un bon system prompt remplace des centaines de lignes d'instructions répétées.
- Définir clairement le rôle : « Tu es un expert fiscal français avec 15 ans d'expérience »
- Définir le comportement en cas d'incertitude : « Si tu ne sais pas, dis-le clairement »
- Définir le format de sortie par défaut : JSON, liste, tableau, prose
- Définir les sujets hors-périmètre : « Ne réponds pas aux questions non liées à X »
RAG-aware prompting
Quand votre LLM reçoit des chunks de documents comme contexte (RAG), le prompt doit guider le modèle à utiliser uniquement les sources fournies, à citer ses références et à signaler quand l'information est manquante.
La règle d'or du RAG prompting : « Si la réponse n'est pas dans les sources fournies, réponds 'Je ne trouve pas cette information dans les documents disponibles.' »
Prompt chaining : décomposer les tâches complexes
Le prompt chaining consiste à diviser une tâche complexe en sous-tâches séquentielles, où la sortie d'un prompt devient l'entrée du suivant. Cette approche est plus fiable et débogable que de tout demander en un seul prompt.
- Étape 1 : extraction des informations clés du document source
- Étape 2 : structuration des informations en format intermédiaire (JSON)
- Étape 3 : génération du rapport final à partir du JSON structuré
- Validation : vérification automatique du format de sortie à chaque étape
Paramètres de sampling : température et top-p
La température contrôle l'aléatoire de la génération. Une température de 0 est déterministe (toujours la même réponse), une température élevée (>1) est créative mais moins fiable. Pour des tâches structurées, gardez la température entre 0 et 0.3.
- Température 0 : extraction d'informations, classification, SQL, JSON — réponses déterministes
- Température 0.3-0.7 : rédaction professionnelle, analyse, résumé
- Température 0.7-1.0 : créativité, brainstorming, génération de variantes
- Top-p (nucleus sampling) : alternative à la température, contrôle le vocabulaire sélectionné
Protection anti-injection
En production, validez et filtrez toujours les entrées utilisateur avant de les injecter dans vos prompts. L'injection de prompt est une vraie surface d'attaque sur les applications LLM exposées.