Chain-of-Thought Prompt

Chain-of-Thought Prompting, making a chain of thought

[Wei et al., 2022] ont introduit l’incitation à la chaîne de pensée (Chain-of-thought prompting) comme technique pour inciter les LLM à répondre de manière à faciliter des processus de raisonnement cohérents et étape par étape. La principale contribution réside dans la proposal et l’exploration de l’incitation à la chaîne de pensée, démontrant son efficacité pour susciter des réponses plus structurées et plus réfléchies de la part des LLM par rapport aux invites traditionnelles.

Principle of the chain of thought

Introduced by Wei et al. (2022), the method Chain of Thought (CoT) helps develop complex reasoning skills through intermediate reasoning steps. You can combine it with a few-step response method to get better results. results on more complex tasks that require reasoning before responding.

« Les nombres impairs de ce groupe s’additionnent pour former un nombre pair : 4, 8, 9, 15, 12, 2, 1.
A: Adding all the odd numbers (9, 15, 1) gives 25. The answer is False.
Les nombres impairs de ce groupe s’additionnent pour former un nombre pair : 17, 10, 19, 4, 8, 12, 24.
A: Adding all the odd numbers (17, 19) gives 36. The answer is True.
Les nombres impairs de ce groupe s’additionnent pour former un nombre pair : 16, 11, 14, 4, 8, 13, 24.
A: Adding all the odd numbers (11, 13) gives 24. The answer is True.
Les nombres impairs de ce groupe s’additionnent pour former un nombre pair : 17, 9, 10, 12, 13, 4, 2.
A: Adding all the odd numbers (17, 9, 13) gives 39. The answer is False.
Les nombres impairs de ce groupe s’additionnent pour former un nombre pair : 15, 32, 5, 13, 82, 7, 1.
HAS : "

The prompt generates the following response:

« L’addition de tous les nombres impairs (15, 5, 13, 7, 1) donne 41. La réponse est Faux. »

In itself, a single example of few-shot prompting is sufficient here.

Zero Shot CoT

Le concept d’invite de « chaîne de pensée Zero-Shot » (Zero-shot-CoT) est une itération avancée du mécanisme d’invite CoT, où l’aspect « zéro-shot » implique que le modèle est capable d’effectuer un certain raisonnement sans avoir vu des exemples de la tâche pendant la formation. L’augmentation des requêtes avec la phrase « Pensons étape par étape » a facilité la génération d’une chaîne de raisonnement séquentielle par les LLM. Cette chaîne de raisonnement s’est ensuite révélée déterminante pour obtenir des réponses plus précises. Cette technique est basée sur l’idée que le modèle, tout comme un humain, peut bénéficier d’étapes plus détaillées et logiques pour traiter l’invite et générer une réponse.

Automatic CoT

Lors de l’application d’incitations en chaîne de pensée avec des démonstrations, le processus implique la création manuelle d’exemples efficaces et diversifiés. Cet effort manuel pourrait conduire à des solutions sous-optimales. Zhang et coll. (2022) proposent une approche pour éliminer les efforts manuels en tirant parti des LLM avec l’invite « Pensons étape par étape » pour générer des chaînes de raisonnement pour les démonstrations une par une. Ce processus automatique peut encore aboutir à des erreurs dans les chaînes générées. Pour atténuer les effets des erreurs, la diversité des manifestations compte. Ce travail propose Auto-CoT, qui échantillonne des questions with diversity and generates chains of reasoning to construct the demonstrations.

Auto-CoT consists of two main steps:

  1. Regroupement de questions : partitionner les questions d’un ensemble de données donné en quelques clusters
  2. Échantillonnage de démonstration : sélectionnez une question représentative de chaque cluster et générez sa chaîne de raisonnement à l’aide de Zero-Shot-CoT avec des heuristiques simples

L’heuristique simple pourrait être la longueur des questions (par exemple, 60 jetons) et le nombre d’étapes de la justification (par exemple, 5 étapes de raisonnement). Cela encourage le modèle à utiliser des démonstrations simples et précises.

Golden chain-of-thought

The Golden Chain of Thought provides an innovative approach to generating query responses based on instructions. This methodology exploite un ensemble de solutions de « chaîne de pensée fondée sur la vérité terrain » incorporées dans l’invite, simplifiant considérablement la tâche du modèle car elle évite la nécessité d’une génération indépendante de CoT. Parallèlement, un nouveau benchmark comprenant des énigmes policières a été conçu, pour évaluer les capacités de raisonnement abductif des LLM, qui est également considéré comme une évaluation du Golden CoT. GPT-4 présente des performances louables, avec un taux de résolution d’énigmes de 83 %, contrairement au taux de résolution de 38 % du CoT standard.

Ensuite, nous ajoutons toujours le nom du mystère, la liste des suspects et le contenu mystère (corps) à l’invite. Lorsque nous souhaitons invoquer le raisonnement en chaîne de réflexion, nous ajoutons également ce qui suit :

Full answer:
Let's think step by step.

Lorsque nous souhaitons fournir une chaîne de pensée dorée, nous ajoutons l’invite suivante :

Solution: {solution}

Finally, we always ask for the final answer with

Final answer: