RÉFÉRENCE // PROMPT_ENGINE.FR

Glossaire du
Prompt Engineering

53définitions claires sur le prompt engineering, les LLMs et l'IA générative — le lexique de référence en français pour maîtriser le vocabulaire de l'IA.

Agent IA: Système autonome utilisant un LLM pour planifier, décider et exécuter des actions en séquence afin d'atteindre un objectif complexe (recherche web, écriture de code, interaction avec des APIs). Les agents peuvent utiliser des outils externes et s'auto-corriger.
Attention (mécanisme d'): Composant central des Transformers permettant au modèle de pondérer l'importance de chaque token par rapport aux autres dans le contexte. Fondement de la compréhension contextuelle des LLMs. Introduit dans le papier «Attention is All You Need» (2017).

Benchmark LLM: Ensemble de tests standardisés (MMLU, HumanEval, HellaSwag, MATH...) permettant d'évaluer objectivement les capacités d'un modèle en compréhension, raisonnement, code ou mathématiques. Les benchmarks permettent de comparer les modèles entre eux.
Biais de modèle: Tendance d'un LLM à produire des réponses favorisant certains points de vue, cultures ou groupes en raison des biais présents dans ses données d'entraînement. Les techniques RLHF et Constitutional AI visent à réduire ces biais.

Chain-of-Thought (CoT): Technique de prompting demandant au modèle d'expliciter ses étapes de raisonnement avant de donner une réponse finale. Améliore significativement les performances sur les problèmes mathématiques et logiques. Variante : Self-Consistency CoT.
Claude: LLM développé par Anthropic. Disponible en versions Haiku (rapide), Sonnet (équilibré) et Opus (puissant). Réputé pour ses capacités de raisonnement, son respect des instructions longues et sa sécurité (Constitutional AI).
Constitutional AI: Méthode d'alignement développée par Anthropic entraînant un modèle à s'auto-critiquer selon un ensemble de principes définis (la «constitution»). Réduit les sorties nuisibles sans supervision humaine constante.
Context window: Nombre maximum de tokens qu'un LLM peut traiter en une seule requête (entrée + sortie combinées). Varie de 4k à 2M+ tokens selon le modèle. Un contexte trop long peut dégrader les performances sur les éléments au milieu du contexte.
Contrainte de format: Instructions dans un prompt spécifiant la forme de la réponse attendue : longueur (200 mots max), structure (bullet points, JSON, tableau), langue, ou style. Améliore la cohérence et l'exploitabilité des sorties.

Embedding: Représentation vectorielle d'un texte dans un espace numérique multidimensionnel. Permet de mesurer la similarité sémantique entre textes. Base technique du RAG et de la recherche sémantique. Chaque texte devient un vecteur de 768 à 4096 dimensions.

Few-shot prompting: Technique fournissant 2 à 10 exemples (paires input/output) dans le prompt avant la tâche réelle. Améliore la cohérence et la qualité des réponses sans réentraînement. Plus efficace que le zero-shot pour les formats complexes ou spécialisés.
Fine-tuning: Réentraînement d'un modèle de fondation sur un dataset spécialisé pour améliorer ses performances sur une tâche précise. Nécessite des ressources GPU significatives mais donne des résultats supérieurs aux simples prompts pour les cas métier très spécifiques.
Function calling (Tool use): Capacité d'un LLM à appeler des fonctions ou outils externes (API, bases de données, calculatrice) en générant des appels structurés en JSON. Permet de créer des agents avec actions réelles. Disponible sur GPT-4o, Claude 3+, Gemini.

GEO (Generative Engine Optimization): Optimisation du contenu pour être cité et référencé par les IA conversationnelles (ChatGPT, Perplexity, Gemini). Complément du SEO traditionnel dans l'ère des moteurs génératifs. Repose sur des contenus structurés, précis et factuels.
Gemini: LLM multimodal développé par Google DeepMind. Disponible en Flash (rapide et économique), Pro et Ultra. Intégré nativement aux outils Google (Workspace, Search, Android). Supporte images, audio et vidéo en entrée.
GPT (Generative Pre-trained Transformer): Famille de modèles développés par OpenAI (GPT-3.5, GPT-4, GPT-4o, GPT-4o-mini). Architecture Transformer pré-entraînée sur de vastes corpus textuels, puis affinée par RLHF. GPT-4o est multimodal (texte + image + audio).
Guardrails: Mécanismes de sécurité intégrés à un LLM ou ajoutés en couche externe pour filtrer les sorties nuisibles, illégales ou hors-sujet. Implémentés via des classifieurs, des prompts système restrictifs ou des règles réglementaires.

Hallucination: Phénomène où un LLM génère des informations fausses formulées avec confiance : citations inexistantes, faits inventés, URLs invalides. Cause principale : les modèles optimisent la vraisemblance du texte, pas sa véracité. Mitigation : RAG, grounding, vérification croisée.

Inference: Phase d'utilisation d'un modèle entraîné pour générer des prédictions ou réponses. Opposé à l'entraînement. La vitesse d'inférence (tokens/seconde) et le coût ($/million de tokens) sont les métriques clés pour les applications en production.
Instruction prompting: Formulation explicite d'une tâche sous forme d'instruction directe et actionnable : «Rédige…», «Analyse…», «Compare…», «Liste…». Mode de prompting le plus courant. La clarté de l'instruction détermine 80% de la qualité du résultat.
Iterative prompting: Méthode consistant à affiner progressivement un prompt en plusieurs cycles : générer → évaluer → corriger → régénérer. Approche naturelle du prompt engineering professionnel. Chaque itération affine les contraintes et le format attendu.

Jailbreak: Technique visant à contourner les guardrails d'un LLM via des prompts manipulatoires (roleplay, encodage, formulations détournées). Les modèles modernes (Claude, GPT-4o) intègrent des défenses robustes contre les jailbreaks courants.
JSON mode: Mode de sortie forçant le LLM à répondre uniquement en JSON valide et parseable. Disponible via API sur GPT-4o, Claude 3+ et d'autres modèles. Indispensable pour les intégrations applicatives nécessitant des données structurées.

LLM (Large Language Model): Modèle de langage massif entraîné sur de vastes corpus textuels pour comprendre et générer du langage naturel. Exemples : GPT-4o (OpenAI), Claude 3.7 (Anthropic), Gemini 1.5 (Google), Llama 3 (Meta), Mistral Large. Base de l'IA générative moderne.

Méta-prompt: Prompt dont l'objectif est de générer d'autres prompts optimisés. Ex : «Génère 5 variantes de ce prompt pour cibler un public différent à chaque fois». Puissant pour l'industrialisation et le test A/B de prompts.
Mistral: LLM open-source développé par Mistral AI (Paris). Modèles : Mistral 7B (efficace), Mixtral 8x7B (MoE), Mistral Large (premium). Réputé pour l'efficacité computationnelle et la souveraineté des données. Hébergeable on-premise.
Modèle de fondation: LLM pré-entraîné sur de grandes quantités de données générales, servant de base pour le fine-tuning ou l'utilisation directe par prompting. Exemples : Llama 3, Mistral, Falcon. Contraste avec les modèles propriétaires d'OpenAI/Anthropic/Google.

Negative prompting: Instructions indiquant explicitement ce que le modèle ne doit PAS faire : «Ne pas utiliser de jargon», «Éviter les listes», «Sans introduction ni conclusion». Améliore la précision du résultat en éliminant les patterns indésirables par défaut.

One-shot prompting: Fournir exactement un exemple dans le prompt avant la tâche réelle. Compromis entre zero-shot (aucun exemple) et few-shot (plusieurs exemples). Utile pour montrer le format exact attendu sans surcharger le contexte.
Output parsing: Extraction et structuration des données utiles depuis la réponse brute d'un LLM. Utilisé pour transformer du texte libre en JSON, CSV ou objets exploitables par une application. Bibliothèques : LangChain output parsers, Instructor (Python).

Persona prompting: Assignation d'un rôle ou d'une identité précise au modèle : «Tu es un expert en cybersécurité avec 20 ans d'expérience...». Oriente le niveau d'expertise, le vocabulaire et le ton des réponses. Une des techniques les plus efficaces pour des sorties spécialisées.
Prompt: Texte d'entrée envoyé à un LLM pour déclencher une génération. Un prompt complet comprend généralement : le rôle/persona, le contexte, la tâche précise, les contraintes, et le format de sortie attendu. La qualité du prompt détermine directement la qualité de la sortie.
Prompt chaining: Technique reliant plusieurs prompts en séquence, où la sortie d'un prompt devient l'entrée du suivant. Permet de décomposer des tâches complexes en étapes simples et vérifiables. Base des workflows d'agents IA.
Prompt compression: Réduction de la longueur d'un prompt sans perte d'information significative pour économiser des tokens et réduire les coûts d'API. Techniques : suppression des redondances, abstractions, résumés automatiques des historiques longs.
Prompt engineering: Discipline consistant à concevoir, tester et optimiser les instructions données aux LLMs pour maximiser la qualité, la cohérence et la pertinence des sorties. Combine psychologie du langage, connaissance des modèles et itération systématique.
Prompt injection: Attaque consistant à injecter des instructions malveillantes dans un contenu traité par un LLM (email, page web, document) pour détourner son comportement. Risque majeur dans les applications agents lisant du contenu externe.
Prompt template: Structure réutilisable avec des variables à substituer dynamiquement : «Rédige un email de [TYPE] pour [DESTINATAIRE] concernant [SUJET] en [LANGUE]». Industrialise l'usage des prompts à l'échelle d'une équipe ou d'une application.

RAG (Retrieval-Augmented Generation): Architecture combinant un LLM avec une base de données vectorielle. Le système récupère les documents pertinents (retrieval) puis les injecte dans le contexte pour améliorer la précision des réponses. Réduit les hallucinations sur des données propriétaires.
ReAct: Framework de prompting (Reasoning + Acting) permettant à un LLM d'alterner entre raisonnement explicite et action concrète (recherche, calcul, appel API). Le modèle explique ce qu'il fait avant de le faire, améliorant la fiabilité.
RLHF (Reinforcement Learning from Human Feedback): Technique d'entraînement où des évaluateurs humains notent les sorties du modèle pour affiner son comportement via du renforcement. Utilisé dans le post-entraînement de GPT-4, Claude et Gemini pour améliorer l'utilité et la sécurité.
Role prompting: Voir Persona prompting. Attribuer un rôle ou une expertise spécifique au modèle en début de prompt pour orienter ses réponses.

Semantic search: Recherche basée sur le sens et l'intention plutôt que sur la correspondance exacte de mots-clés. Utilise des embeddings pour trouver les documents sémantiquement proches d'une requête. Base technique des moteurs RAG.
Structured output: Sortie formatée selon un schéma prédéfini (JSON, XML, Markdown structuré). Garantit l'exploitabilité directe de la réponse par une application sans parsing complexe. Contraste avec le texte libre.
System prompt: Instruction initiale définissant le comportement, la personnalité et les contraintes du modèle pour toute la conversation. Invisible pour l'utilisateur final dans la plupart des applications. Fourni en rôle «system» dans l'API. Fondement de la personnalisation des chatbots.

Temperature: Paramètre (0 à 2) contrôlant la créativité et la variabilité des sorties. Proche de 0 = réponses déterministes et factuelles. Proche de 1-2 = réponses plus créatives et variées. Recommandation : 0 pour le code/JSON, 0.7 pour l'écriture créative.
Token: Unité de base traitée par un LLM. Correspond à ~¾ d'un mot en anglais ou ~2-3 caractères. Les coûts d'API et les limites de contexte sont exprimés en tokens. En français, les mots accentués consomment parfois plus de tokens qu'en anglais.
Top-p (nucleus sampling): Paramètre complémentaire à la temperature sélectionnant le plus petit ensemble de tokens dont les probabilités cumulées atteignent p. Top-p=0.1 = réponses très focalisées. Top-p=0.9 = grande diversité. S'utilise souvent en combinaison avec la temperature.
Transformer: Architecture de réseau de neurones basée sur le mécanisme d'attention, introduite en 2017 (paper «Attention is All You Need»). Fondement de tous les LLMs modernes (GPT, Claude, Gemini, Llama). A remplacé les RNNs et LSTMs pour le traitement du langage.
Tree of Thoughts (ToT): Extension du Chain-of-Thought permettant au modèle d'explorer plusieurs branches de raisonnement en parallèle, comme un arbre de décision, avant de sélectionner la meilleure voie. Améliore les performances sur les problèmes complexes nécessitant de la planification.

User prompt: Message envoyé par l'utilisateur dans une conversation avec un LLM. Par opposition au system prompt (instructions initiales du développeur) et à l'assistant message (réponses du modèle). La qualité du user prompt détermine la qualité de la réponse.

Variable de prompt: Placeholder dans un template de prompt, remplacé dynamiquement : [NOM_CLIENT], [SECTEUR], [OBJECTIF], [LANGUE]. Permet de réutiliser un prompt structuré optimisé pour de multiples cas d'usage sans réécrire les instructions.
Vectorisation: Processus de transformation d'un texte en embedding (vecteur numérique) pour permettre la recherche sémantique et le stockage dans une base vectorielle (Pinecone, ChromaDB, pgvector). Étape fondamentale de tout pipeline RAG.

Zero-shot prompting: Demander directement au modèle d'effectuer une tâche sans fournir d'exemples préalables. Fonctionne bien pour des tâches simples et des modèles récents puissants. Pour des formats complexes, préférer le few-shot prompting.

Questions fréquentes

Qu'est-ce que le prompt engineering ?

Le prompt engineering est la discipline consistant à concevoir, tester et optimiser les instructions données aux LLMs (modèles de langage) pour maximiser la qualité et la pertinence des sorties. Un prompt bien structuré inclut un rôle, un contexte, une tâche précise, des contraintes et un format de sortie.

Quelle est la différence entre zero-shot et few-shot prompting ?

Le zero-shot prompting demande une tâche sans fournir d'exemples. Le few-shot prompting inclut 2 à 10 exemples (paires input/output) avant la tâche pour guider le modèle. Le few-shot est plus efficace pour les formats complexes ou les styles spécifiques.

Comment réduire les hallucinations d'un LLM ?

Pour réduire les hallucinations : utilisez le RAG (Retrieval-Augmented Generation) pour ancrer les réponses dans des documents fiables, demandez au modèle d'indiquer son niveau de confiance, fournissez des sources dans le prompt, et activez le grounding quand disponible.

Qu'est-ce qu'une context window ?

La context window est le nombre maximum de tokens qu'un LLM peut traiter en une seule requête (entrée + sortie combinées). Elle varie de 4 000 tokens (anciens modèles) à 2 millions (Gemini 1.5 Pro). Un contexte trop long peut dégrader les performances sur les éléments au milieu.

Qu'est-ce que le RAG en IA ?

Le RAG (Retrieval-Augmented Generation) est une architecture combinant un LLM avec une base de données vectorielle. Le système récupère les documents pertinents (retrieval) et les injecte dans le contexte du LLM avant la génération. Résultat : des réponses plus précises et ancrées dans des données réelles, avec moins d'hallucinations.

Prêt à passer à la pratique ?

50+ prompts prêts à l'emploi · générateur GPT-4o gratuit

constructionGénérateur databaseBibliothèque