L'ingénierie rapide est-elle une « mode » qui entrave les progrès de l'IA ?
Un scientifique principal de Google DeepMind pense que l’invite n’est pas la bonne interface utilisateur pour l’IA générative, et encore moins pour les chercheurs en IA. Voici pourquoi.
L’art et la science de l’ingénierie rapide, le raffinement des instructions pour l’IA générative, sont-ils une bonne ou une mauvaise chose ? Étonnamment, il n’y a pas d’accord universel.
L'ingénierie rapide est apparue en 2024 comme un outil d'interface utilisateur de plus en plus important après le succès fulgurant de ChatGPT en 2022 et 2023. La prise de conscience que la conception et la création d'instructions pour de grands modèles de langage et les technologies associées pouvaient obtenir des résultats meilleurs ou pires a fait de l'ingénierie rapide son propre domaine d'activité. exploration vibrante.
Motivés par la conviction qu'« une invite bien conçue est essentielle pour obtenir des résultats précis et pertinents des LLM », les utilisateurs agressifs de l'IA – comme le service de covoiturage Uber – ont créé des disciplines entières autour du sujet.
Et pourtant, il existe un argument raisonné selon lequel les invites ne constituent pas la bonne interface pour la plupart des utilisateurs de la génération AI, y compris les experts.
"Mon opinion professionnelle est que l'invite est une mauvaise interface utilisateur pour les systèmes d'IA générative, qui devrait être progressivement supprimée le plus rapidement possible", écrit Meredith Ringel Morris, scientifique principale pour l'interaction homme-IA pour l'unité de recherche DeepMind de Google, dans le numéro de décembre. numéro de la revue informatique Communications de l'ACM.
Les invites ne sont pas vraiment des « interfaces en langage naturel », souligne Morris. Il s'agit d'un langage "pseudo" naturel, dans la mesure où une grande partie de ce qui les fait fonctionner n'est pas naturel.
"Le fait que des variations d'incitation qui ne seraient pas pertinentes pour un interlocuteur humain (par exemple, l'échange de synonymes, des reformulations mineures, des changements d'espacement, de ponctuation ou d'orthographe) entraînent des changements majeurs dans le comportement du modèle devrait nous faire réfléchir", écrit Morris. , "et rappellent encore que les invites sont encore assez loin d'être une interface en langage naturel."
Ces variations, note-t-elle, prêtent à confusion pour l'utilisateur moyen, qui ne peut pas se fier à ce qui vient d'une phrase donnée.
Le langage naturel entre humains comporte des éléments qui n’entrent jamais en ligne de compte, souligne Morris. "Lorsque les gens conversent entre eux, ils travaillent ensemble pour communiquer, formant des modèles mentaux de l'intention de communication d'un interlocuteur basés non seulement sur des mots mais également sur des indices paralinguistiques et contextuels, des capacités de théorie de l'esprit et en demandant des éclaircissements si nécessaire. ".
En revanche, « les invites obscures ont tendance à produire de meilleurs résultats que celles rédigées en langage simple », dit-elle, écrivant que « les différences subtiles entre les invites et les véritables interactions en langage naturel conduisent à la confusion pour les utilisateurs finaux typiques des systèmes d'IA » et « entraînent le besoin d'« ingénieurs rapides » spécialement formés ainsi que de marchés rapides tels que PromptBase. Même une ingénierie rapide peut produire des résultats incohérents et peu fiables, ajoute Morris.
Les utilisateurs moyens ne sont pas les seuls à souffrir des défauts des invites : l’utilisation des invites empoisonne la recherche sur l’IA. Les documents de recherche qui vantent chaque nouvelle avancée ne rendent pas compte de manière fiable du nombre d'invites qu'ils utilisent pour obtenir un résultat, une omission que Morris qualifie de « piratage d'invites ».
Par exemple, un piratage rapide peut signifier que les tests de référence des nouveaux modèles d’IA – la méthode standard pour évaluer les progrès – sont incohérents et, par conséquent, invalides.
« Bien que les modèles testent apparemment le même ensemble de critères de référence », écrit Morris, « en pratique, ces mesures peuvent ne pas être comparables en raison des variations dans la manière dont chaque organisation opérationnalise le benchmarking, c'est-à-dire le format des invites utilisées pour présenter les tests. au modèle."
Au lieu de recourir à des incitations, Morris suggère diverses approches. Ceux-ci incluent des interfaces utilisateur plus contraintes avec des boutons familiers pour donner aux utilisateurs moyens des résultats prévisibles ; de « vraies » interfaces en langage naturel ; ou une variété d'autres approches « à large bande passante » telles que « les interfaces gestuelles, les interfaces affectives (c'est-à-dire médiées par des états émotionnels), les interfaces de manipulation directe (c'est-à-dire la manipulation directe du contenu sur un écran, en réalité mixte ou dans le monde physique)."
Morris soutient que toutes ces approches, plutôt que les arcanes des invites, sont des méthodes plus simples pour interagir avec l'IA "puisqu'elles ne nécessitent aucune courbe d'apprentissage et sont extrêmement expressives".
L’IA se trouve « à un moment critique », écrit-elle. "Notre acceptation de l'incitation comme un simulacre "assez bon" d'une interface naturelle entrave le progrès.
"Je pense que nous considérerons les interfaces basées sur des invites vers les modèles d'IA génératives comme une mode du début des années 2020 - un feu de paille sur l'évolution vers des interactions plus naturelles avec des systèmes d'IA de plus en plus puissants."