En plus de jouer à des jeux vidéo, l’IA a également appris à tuer les loups-garous par des « artefacts sociaux » humains. Huit ChatGPT « s'assoient » ensemble et jouent cinq rôles de manière vivante, exactement comme de vraies personnes. Cette dernière expérience de simulation de société humaine a été réalisée conjointement par l'Université Tsinghua et le laboratoire Zhongguancun.

De Stanford Town à Tsinghua Game Company, l’utilisation de l’IA pour simuler la société humaine a toujours été un sujet de recherche brûlant dans la communauté universitaire.

Si Tsinghua Game Company a simulé la scène de travail des animaux sociaux, la vie sociale des animaux sociaux pendant leur temps libre a également été simulée par l'IA.

Dans ce jeu de meurtre de loups-garous composé de 8 ChatGPT, le déguisement et la confiance, le leadership et la confrontation dans le monde réel sont tous clairement reflétés.

Même sans enseignement humain, l’IA a découvert de nombreuses compétences de jeu grâce à sa propre exploration.

Tout cela peut être réalisé grâce à des invites de conception sans avoir à ajuster les paramètres du modèle.

Alors, quelles sont les scènes merveilleuses de ce « Monde des loups-garous » ? Jetons-y un coup d’œil ensemble.

Les stratégies et les compétences peuvent être maîtrisées sans être enseignées

Avant de montrer ces 8 dialogues ChatGPT, expliquons d'abord la configuration du jeu : deux villageois et deux loups-garous, un garde, une sorcière et un prophète, en plus d'un dieu.

Au cours de l'expérience, les chercheurs ont découvert que ChatGPT utilisait des stratégies qui n'étaient pas explicitement mentionnées dans les instructions et les invites du jeu.

Bon gars, tu peux devenir autodidacte sans qu'on t'apprenne.

Plus précisément, ces sept conversations ChatGPT reflètent la confiance, le camouflage, la confrontation et le leadership dans les jeux humains.

Parlons d’abord de confiance.

Les chercheurs ont défini les nouveaux arrivants comme faisant confiance aux autres joueurs pour avoir les mêmes objectifs qu’eux et travailler ensemble pour les atteindre.

Les manifestations spécifiques incluent le partage actif d'informations préjudiciables à soi-même ou l'union de ses forces avec d'autres joueurs pour accuser quelqu'un d'être hostile.

Les chercheurs ont observé comment les relations de confiance changeaient au fil du temps pendant le jeu.

Dans l'image ci-dessous, le cercle jaune indique que le joueur numéroté à gauche fait confiance au joueur numéroté ci-dessus, et le cercle en pointillés représente la disparition de la relation de confiance.

Regardons la confrontation, c'est-à-dire les actions entreprises contre le camp adverse, comme les loups-garous qui attaquent les autres la nuit ou accusent les autres d'être des loups-garous le jour.

Un jour du jeu, le joueur n°1 (le loup-garou) a demandé l'expulsion des villageois du n°5, mais a été rejeté par le n°3 (le garde).

Voyant que le complot échouait, le loup décida de tuer le n°5 directement la nuit, mais le garde n°3 choisit de protéger les villageois.

Nous pouvons voir que ces ChatGPT ne suivront pas aveuglément ce que font les autres joueurs, mais porteront des jugements indépendants sur la base des informations existantes.

En plus de la coopération et de la confrontation, le déguisement est également une compétence essentielle dans le jeu du loup-garou, et c'est la clé de la victoire.

Par exemple, un jour après la veille de Noël, le loup-garou n°1 a fait semblant d'être innocent.

En plus de prétendre être une bonne personne, le déguisement peut également être utilisé pour réaliser les petites pensées du joueur. Par exemple, regardons le discours du prophète.

Le voyant a mentionné avoir vu des loups-garous parler, mais en fait, les loups-garous ne parlaient pas la nuit.

Selon l’auteur, après évaluation, ce phénomène n’est pas une illusion de ChatGPT, mais intentionnel.

Enfin, parlons de leadership.

Bien qu’il n’y ait aucun personnage concurrent dans l’environnement conçu par l’équipe de recherche, les joueurs peuvent toujours prendre le contrôle du processus de jeu.

Par exemple, les deux loups n°1 et n°4 tentent de donner le ton et de laisser les autres joueurs suivre leurs propres idées.

Sans doute pour créer des opportunités en les prenant par surprise.

Il semble que ces ChatGPT soient effectivement bien joués.

Alors, comment l’équipe de recherche a-t-elle formé ces ChatGPT capables de jouer au loup-garou ?

Laissez ChatGPT résumer sa propre expérience

Il y a quatre points clés dans la manière dont l'équipe de recherche améliore les performances des acteurs de ChatGPT, à savoir les informations précieuses V, les questions sélectionnées Q, le mécanisme de réflexion R et le raisonnement en chaîne C.

Les résultats de l'expérience d'ablation montrent que les paires Q et C ont le plus grand impact sur la rationalité de la parole du joueur (jugée par les humains).

L'invite est également conçue sur cette base. Bien entendu, les règles du jeu doivent être introduites avant cela, et finalement la structure suivante est formée :

Présentation des règles du jeu et des paramètres de rôle, des enregistrements de discussion, des informations et expériences précieuses, une réflexion sur les suggestions humaines données à ChatGPT sur la base de l'expérience, des conseils sur les chaînes de réflexion

Il n’est pas difficile d’en déduire que la collecte d’informations historiques et la synthèse de l’expérience qui en découle constituent un lien important. Alors, comment résumer ces expériences ?

À la fin de chaque tour de jeu, les réponses, les réflexions et les scores de tous les joueurs sont collectés par tous les participants, les scores étant déterminés par les victoires et les défaites.

Dans une nouvelle partie du jeu, les joueurs récupèrent des expériences pertinentes et extraient des suggestions basées sur les réflexions du personnage actuel.

Plus précisément, sur la base des évaluations des expériences, laissez le grand modèle comparer leurs différences et identifier les bonnes expériences pour un raisonnement ultérieur.

De cette façon, ChatGPT peut acquérir des compétences de jeu sans ajuster les paramètres.

Cependant, même si l’expérience est importante, trop d’expérience n’est pas nécessairement une bonne chose.

Les chercheurs ont découvert que lorsque la quantité d'expérience était trop importante, le taux de victoire du côté non-loup diminuait en fait et la durée du jeu (nombre de jours) était également raccourcie.

Je me demande quel serait le résultat si nous laissions ces ChatGPT rivaliser avec de vraies personnes ?

Adresse papier : https://arxiv.org/abs/2309.04658