[Wei et al., 2022] ont introduit l’incitation à la chaîne de pensée (Chain-of-thought prompting) comme technique pour inciter les LLM à répondre de manière à faciliter des processus de raisonnement cohérents et étape par étape. La principale contribution réside dans la proposition et l’exploration de l’incitation à la chaîne de pensée, démontrant son efficacité pour susciter des réponses plus structurées et plus réfléchies de la part des LLM par rapport aux invites traditionnelles.

Chain-of-thought prompting

Principe de la chaine de pensée

Introduite par Wei et al. (2022), la méthode de la chaîne de pensée (CoT) permet de développer des capacités de raisonnement complexes grâce à des étapes de raisonnement intermédiaires. Vous pouvez la combiner avec une méthode de réponse en quelques étapes pour obtenir de meilleurs résultats sur des tâches plus complexes qui nécessitent un raisonnement avant de répondre.

« Les nombres impairs de ce groupe s’additionnent pour former un nombre pair : 4, 8, 9, 15, 12, 2, 1.
A : En additionnant tous les nombres impairs (9, 15, 1), on obtient 25. La réponse est Faux.
Les nombres impairs de ce groupe s’additionnent pour former un nombre pair : 17, 10, 19, 4, 8, 12, 24.
A : En additionnant tous les nombres impairs (17, 19), on obtient 36. La réponse est Vrai.
Les nombres impairs de ce groupe s’additionnent pour former un nombre pair : 16, 11, 14, 4, 8, 13, 24.
A : En additionnant tous les nombres impairs (11, 13), on obtient 24. La réponse est Vrai.
Les nombres impairs de ce groupe s’additionnent pour former un nombre pair : 17, 9, 10, 12, 13, 4, 2.
A : En additionnant tous les nombres impairs (17, 9, 13), on obtient 39. La réponse est Faux.
Les nombres impairs de ce groupe s’additionnent pour former un nombre pair : 15, 32, 5, 13, 82, 7, 1.
A : »

Le prompt génère la réponse suivante :

« L’addition de tous les nombres impairs (15, 5, 13, 7, 1) donne 41. La réponse est Faux. »

En soit un seul exemple de few-shot prompting suffit ici.

Zero Shot CoT

Le concept d’invite de « chaîne de pensée Zero-Shot » (Zero-shot-CoT) est une itération avancée du mécanisme d’invite CoT, où l’aspect « zéro-shot » implique que le modèle est capable d’effectuer un certain raisonnement sans avoir vu des exemples de la tâche pendant la formation. L’augmentation des requêtes avec la phrase « Pensons étape par étape » a facilité la génération d’une chaîne de raisonnement séquentielle par les LLM. Cette chaîne de raisonnement s’est ensuite révélée déterminante pour obtenir des réponses plus précises. Cette technique est basée sur l’idée que le modèle, tout comme un humain, peut bénéficier d’étapes plus détaillées et logiques pour traiter l’invite et générer une réponse.

zero shot chain of thought prompting

Automatic CoT

Lors de l’application d’incitations en chaîne de pensée avec des démonstrations, le processus implique la création manuelle d’exemples efficaces et diversifiés. Cet effort manuel pourrait conduire à des solutions sous-optimales. Zhang et coll. (2022) proposent une approche pour éliminer les efforts manuels en tirant parti des LLM avec l’invite « Pensons étape par étape » pour générer des chaînes de raisonnement pour les démonstrations une par une. Ce processus automatique peut encore aboutir à des erreurs dans les chaînes générées. Pour atténuer les effets des erreurs, la diversité des manifestations compte. Ce travail propose Auto-CoT, qui échantillonne des questions avec diversité et génère des chaînes de raisonnement pour construire les démonstrations.

Auto-CoT se compose de deux étapes principales :

  1. Regroupement de questions : partitionner les questions d’un ensemble de données donné en quelques clusters
  2. Échantillonnage de démonstration : sélectionnez une question représentative de chaque cluster et générez sa chaîne de raisonnement à l’aide de Zero-Shot-CoT avec des heuristiques simples

L’heuristique simple pourrait être la longueur des questions (par exemple, 60 jetons) et le nombre d’étapes de la justification (par exemple, 5 étapes de raisonnement). Cela encourage le modèle à utiliser des démonstrations simples et précises.

automatic chain of thought prompting

Golden chain-of-thought

La chaîne de pensée en or fournit une approche innovante pour générer des réponses aux requêtes basées sur des instructions. Cette méthodologie exploite un ensemble de solutions de « chaîne de pensée fondée sur la vérité terrain » incorporées dans l’invite, simplifiant considérablement la tâche du modèle car elle évite la nécessité d’une génération indépendante de CoT. Parallèlement, un nouveau benchmark comprenant des énigmes policières a été conçu, pour évaluer les capacités de raisonnement abductif des LLM, qui est également considéré comme une évaluation du Golden CoT. GPT-4 présente des performances louables, avec un taux de résolution d’énigmes de 83 %, contrairement au taux de résolution de 38 % du CoT standard.

golden-cot

Ensuite, nous ajoutons toujours le nom du mystère, la liste des suspects et le contenu mystère (corps) à l’invite. Lorsque nous souhaitons invoquer le raisonnement en chaîne de réflexion, nous ajoutons également ce qui suit :

Réponse complète :
Réfléchissons étape par étape.

Lorsque nous souhaitons fournir une chaîne de pensée dorée, nous ajoutons l’invite suivante :

Solution : {solution}

Enfin, nous demandons toujours la réponse finale avec

Réponse finale :

fr_FRFR