Présentation d'exemples de la façon dont l'IA d'apprentissage par renforcement est utilisée dans la conception du jeu de Momotetsu et l'ajustement de l'équilibre de Powersaka. Quel est le comportement orienté évaluation propre à l'IA d'apprentissage par renforcement qui ne peut pas être imité par COM ordinaire [CEDEC2022]

La « CEDEC 2022 » (Computer Entertainment Developers Conference 2022) s'est tenue pendant trois jours, du 23 août (mardi) au 25 août (jeudi) 2022. Dans cet article, nous présenterons le contenu des sessions organisées le deuxième jour, « Conception de jeux utilisant l'IA d'apprentissage par renforcement ! : « Momotaro Dentetsu - Un classique des époques Showa, Heisei et Reiwa ! » et « Jikkyou Puissant Soccer. " Nous le livrerons.

Les intervenants de cette session étaient Kosuke Iwakura (chef du département de développement technologique), Nozomu Ikebata (programmeur, troisième département de production) et Shunichi Munemasa (programmeur, département de développement technologique) de Konami Digital Entertainment Co., Ltd.

Au cours de cette session, ce qu'est « l'IA d'apprentissage par renforcement », et comment elle se comporte et joue un rôle actif dans le développement de jeux réels, a été présenté à travers des exemples concrets et d'utilisation très faciles à comprendre. Le rôle joué par l’IA par apprentissage par renforcement, capable de donner la priorité à « l’évaluation » finale au-delà de la simple réponse à la situation, est désormais comparable à la position du personnel important.

J’ai senti que les propriétés et capacités uniques de l’IA par apprentissage par renforcement pourraient devenir essentielles dans les futurs sites de production de jeux.

L’IA par apprentissage par renforcement cherche des moyens d’obtenir de la « valeur »

Dans cette conférence, nous expliquerons d'abord le mécanisme de base de l'apprentissage par renforcement de l'IA. Ensuite, à titre d'exemple de la façon dont des choses intéressantes comme celle-ci se produisent lors de l'utilisation de l'IA d'apprentissage par renforcement,Chemin de fer électrique Momotaro - Showa, Heisei et Reiwa sont également de série ! ~"(ci-dessous,"Momotetsu") au stade du développement, et comment il peut être utilisé une fois que le jeu atteint réellement l'utilisateur.Vivez un football puissant"(ci-dessous,"pouvoir sakaNous avons présenté un exemple de son utilisation dans le réglage de la balance.

Tout d’abord, qu’est-ce que « l’IA par apprentissage par renforcement » ? L'IA apprend en quantifiant tous les phénomènes, et l'IA par apprentissage par renforcement a la propriété de quantifier et d'accorder la plus haute priorité à la « valeur ». Tout d'abord, apprenez en convertissant la valeur de « quelle est la qualité de l'état actuel » en une valeur numérique concrète appelée valeur V.

Par exemple, dans le jeu Sugoroku, les joueurs les plus proches du but peuvent simplement avoir un avantage, ou les joueurs les plus éloignés peuvent en fait avoir plus de chances d'atteindre le sommet. Ces points s'apprennent grâce au jeu répété. De même, l’IA apprend la valeur de chaque situation.

Il y a toujours des choix dans le jeu. Lorsque vous faites des choix, vous devez considérer les avantages qui seront obtenus en terminant le jeu plutôt que les bénéfices immédiats. L’IA par apprentissage par renforcement apprend également quelles options sont susceptibles de donner de bons résultats (valeur) à la fin.

De plus, toute la valeur ne peut pas être obtenue simplement en choisissant l’option appropriée. Par exemple, si vous marchez en regardant vers le bas, vous remarquerez une pomme qui tombe à vos pieds, mais vous ne remarquerez pas une pomme sur l'arbre. Vous pouvez obtenir .

L'IA d'apprentissage par renforcement teste divers modèles de comportement et apprend quel comportement rapporte le plus de récompense (valeur).

De cette manière, l’IA d’apprentissage par renforcement dans les jeux est capable de déduire correctement la valeur tout en apprenant et en acquérant des modèles de comportement qui peuvent obtenir une valeur plus élevée. La valeur varie en fonction du jeu et peut aller de l'obtention de conditions de victoire au développement d'un caractère fort.

Et si l’IA existait dès le début du développement de « Momo Tetsu » ? Le Dieu de la pauvreté était ici également un puissant ennemi.

Que se passera-t-il si une telle IA d’apprentissage par renforcement est présente sur place dès les premières étapes du développement du jeu ? Au cours de la conférence, il a continué à présenter des cas du site de développement de « Momo Tetsu ».

« Momotaro Electric Railway – Showa, Heisei et Reiwa sont également de série ! ~'' est sorti en novembre 2020.Chemin de fer électrique Momotaro» La dernière œuvre de la série. Il s'agit d'un jeu de société dans lequel chaque joueur joue le rôle du président d'une compagnie ferroviaire et parcourt le Japon en lançant des dés, acquérant des propriétés dans tout le pays et visant à devenir le numéro un au Japon en termes d'actifs totaux. .

Bien qu'il s'agisse d'un titre facile à jouer comme Sugoroku, il est également très stratégique, comme où et comment utiliser les « cartes » et comment collecter des actifs. Les joueurs forts ont fermement établi leur propre style de jeu.

De plus, cette étude de cas de développement utilisant l'IA d'apprentissage par renforcement a été entreprise à des fins de recherche après la sortie de « Momo Tetsu ». Veuillez noter qu'il existe quelques différences par rapport à la version actuellement publiée du même jeu en termes de spécifications et de stratégies, et que le jeu principal est également constamment mis à jour et modifié.

Pour l'environnement d'apprentissage, nous avons utilisé un simulateur créé en C#.

À ce stade, beaucoup de gens se demandent peut-être : « Même s'il s'agissait d'une initiative post-sortie, sommes-nous censés parler d'exemples provenant des premiers stades de développement ? » En fait, toutes les données post-diffusion n’ont pas été incluses dès le début dans cet environnement de simulation.

Dans ce cas, le simulateur a démarré avec une simple spécification de la carte d'Hokkaido uniquement, et les spécifications du jeu ont été progressivement ajoutées. Il était très intéressant de voir comment l’IA d’apprentissage par renforcement se comportait dans cet environnement, qui suivait les étapes de développement depuis le début.

Était-il possible que l'IA d'apprentissage par renforcement se développe pour devenir ce qu'on appelle un « joueur fort » dans « Momo Tetsu », qui présente un fort caractère aléatoire ?

Tout d’abord, nous avons créé un simulateur simple aux fonctionnalités limitées, que l’on pourrait appeler un mini Momotetsu. En effet, on pensait que si l’apprentissage échouait avec un simulateur complexe, il serait difficile de déterminer si la cause était le jeu ou l’apprentissage par renforcement.

Il existe différents éléments pour prendre des décisions pendant le jeu, mais d'abord vous apprendrez seulement à choisir un itinéraire de déplacement et à choisir une carte. S'agissant d'une expérience de démonstration, nous avons rapidement utilisé le framework existant avec ses valeurs par défaut.

De plus, comme le nombre d'options est indéterminé même si vous lancez simplement les dés et sélectionnez un itinéraire, il y a trois méta-actions à l'avance : « Visez la destination », « Augmentez votre bankroll aux stations plus », » et « Acheter une propriété ». À cela, nous avons ajouté un modèle et un caractère aléatoire quant à l'utilisation ou non d'une carte qui augmente le nombre de dés, et avons défini le nombre d'actions comme une constante.

Pour les adversaires, nous préparons deux COM qui agissent selon les règles et définissons la valeur (récompense) comme la différence entre les actifs totaux, plus la différence avec le joueur en deuxième place est grande, plus le joueur est fort.

Nous avons utilisé un taux de réussite de 33 % comme référence pour la réussite ou l'échec de l'apprentissage, mais comme il y avait des cas où l'apprentissage n'était pas possible tel quel, nous avons également fixé les récompenses pour la deuxième et la troisième place comme constantes, ainsi que la différence de montant. car la première place était déterminée par cette constante. Les nombres étaient trop grands, ils ont donc été mis à l'échelle.

Quel a été le taux de réussite dans ces conditions ? J'ai pu gagner presque complètement contre les COM qui donnaient la priorité à leur argent et à leurs propriétés en « donnant la priorité à la destination », et j'ai atteint une base de référence contre les COM qui donnaient la priorité à la destination. Dans cet environnement, les résultats ont montré qu’il était préférable de viser la destination dans les plus brefs délais.

Une fois que nous aurons déterminé que l’apprentissage est possible, nous porterons les données du jeu principal vers le simulateur. Premièrement, lorsque j'ai étendu la carte pour couvrir l'ensemble du pays, j'ai découvert qu'au lieu de donner la priorité à la destination comme auparavant, j'avais plus de chances de gagner si je me promenais au lieu de me diriger vers la destination pour m'arrêter à une gare où je avait plus d'argent. La raison en est qu'à mesure que la carte s'élargit, la destination s'éloigne, ce qui rend plus difficile l'obtention de « l'argent d'assistance » qui peut être obtenu une fois arrivé à destination.

Si vous ajoutez à cela un « bonus d'arrivée consécutive à destination », l'IA prendra un tour et apprendra à viser la destination, car il ne suffit pas de simplement gagner de l'argent et d'en gagner régulièrement à la gare. Même avec l'ajout de types de stations spéciales et la redéfinition des actions à un total de 27, l'apprentissage s'est poursuivi en mettant l'accent sur le chemin vers la destination.

Même si des cases spéciales ont été ajoutées, il y avait encore un petit nombre d'événements et de types de cartes, donc je n'ai pas vu beaucoup de changement.

Jugeant que l'apprentissage progresse sans problème, les 106 types de cartes ont été ajoutés ici, là où jusqu'à présent il n'y avait que des cartes express qui augmentent le nombre de dés. Il semble que le nombre de modèles d'action va augmenter d'un seul coup, mais en réalité, le nombre maximum de cartes que vous pouvez posséder est de 8, donc seulement un maximum de 9 actions seront efficaces, y compris lorsque vous ne les utilisez pas.

Dans cet état, lorsque nous avons à nouveau étudié le changement de comportement de l'IA en fonction de la présence ou de l'absence d'une carte express, nous avons constaté que lorsqu'il y a une carte express, elle choisit de profiter de ses marges, et lorsqu'elle le fait non, il choisit de construire régulièrement des actifs.

Pour les cartes, il y a trop de types d'actions invalides, donc les actions invalides sont masquées.

L'ajout de cette carte a apporté un changement majeur dans le style de jeu de l'IA. A titre d'exemple, en utilisant une « carte d'échange » qui vous permet d'accumuler des actifs sans vous rendre à destination et d'échanger de l'argent avec d'autres joueurs, vous pouvez voler les actifs du COM qui a atteint la destination, ce qui est typique de Sugoroku. Nous allons vous montrer quelques développements inattendus.

Concernant le taux d’utilisation des cartes, on a constaté une tendance à utiliser les cartes de manière égale.

Ensuite, nous avons ajouté un élément unique à Momotetsu, le dieu de la pauvreté. Le Dieu de la Pauvreté est un personnage qui, lorsqu'un joueur atteint une destination, hante le joueur le plus éloigné de la destination et provoque divers désavantages. Comment répondre à ce dieu de la pauvreté est l'un des vrais plaisirs de Momotetsu.

Avec la mise en œuvre du Dieu de la Pauvreté, un problème d’apprentissage majeur s’est posé pour la première fois. Si l'IA apprend jusqu'à présent que l'adversaire arrive le premier à destination et vole ses biens plus tard, le Dieu de la pauvreté suivra inévitablement l'IA. En conséquence, ils n’ont pas réussi à trouver un moyen de gagner, leur pourcentage de victoires a continué de baisser et ils n’ont pas pu apprendre.

Jusqu’à présent, nous avons réussi à résoudre le problème en définissant des récompenses, des actions et en modifiant l’État, mais cela ne suffit pas au Dieu de la pauvreté. Par conséquent, nous avons réussi à apprendre en incorporant un programme d’apprentissage dans lequel la force était ajustée en demandant au COM basé sur des règles d’effectuer des actions aléatoires avec une certaine probabilité, ainsi qu’un apprentissage par auto-compétition.

En particulier, dans l'apprentissage autonome, vous jouerez contre trois joueurs IA avec la même stratégie, mais dans cet état, vous pouvez maintenir un taux de victoire de 33 %, démontrant qu'il n'y a presque aucune différence d'avantage ou de désavantage en fonction de votre tourner.

De ce cas, nous pouvons voir les effets du Dieu de la Pauvreté. Même dans un environnement où j'ai pu maintenir un taux de victoire de 90 %, mon taux de victoire est tombé à 70 %. Le COM de l'adversaire gagne de 30 % sans utiliser aucune technique. Les résultats démontrent l'équilibre de ce travail, qui serait composé de 70% de compétence et 30% de chance.

De plus, avant la mise en œuvre du Pauvre Dieu, il y avait des cas où un joueur perdait en fonction de la stratégie, mais après la mise en œuvre, les taux de victoire entre les joueurs se sont équilibrés. De plus, afin d’éviter le Dieu de la pauvreté, l’IA apprendra à donner la priorité à l’arrivée à destination plutôt qu’aux stratégies de vol d’actifs.

L’IA peut parfois adopter des stratégies inattendues en fonction de l’environnement, et il est très intéressant de voir quels types de résultats produiront les apprentissages en cours actuellement.

Même s'il y avait un consensus dès les premières étapes du développement sur le fait que « c'est le genre de jeu que nous devrions créer », alors que les planificateurs du jeu continuaient à introduire une multitude d'éléments comme dans « Momo Tetsu », l'image de chacun de le jeu a changé. Il est possible que cela disparaisse.

Cela est probablement controversé, mais grâce à l'apprentissage par renforcement de l'IA, cela peut vous dire dans quelle sorte de style de jeu se trouve actuellement le jeu d'un point de vue impartial. Des résultats de comparaison quantitative sont également présentés concernant la force d'une certaine spécification.

Il en va de même pour les divers éléments de Momotetsu, comme les plus de 100 types de cartes, que les humains ont tendance à avoir du mal à voir. Ils examinent tout de la même manière et donnent des rapports intéressants sur la force de cette carte. La conclusion de cette présentation de cas d’utilisation de l’IA est qu’une telle IA d’apprentissage par renforcement pourrait devenir une force unificatrice majeure dans le développement de jeux.

Forte prise en charge du système de vérification avec plus de 100 000 essais

La conférence s'est poursuivie en introduisant la prise en charge de l'ajustement de l'équilibre à l'aide de l'IA d'apprentissage par renforcement dans "Jikkyou Puissant Soccer" en tant qu'étude de cas réelle plutôt qu'en tant que simulation.

Sur le site de développement du jeu, ils ont passé un an à rechercher et à développer l'utilisation de l'IA pour l'ajustement de l'équilibre, et ont mené des opérations réelles pendant deux années supplémentaires. Bien que l’IA autre que l’apprentissage par renforcement soit utilisée à cet effet, cette conférence s’est concentrée sur l’utilisation de l’apprentissage par renforcement.

"Pawasaka" est un titre dont la distribution a commencé en 2016. Les joueurs peuvent développer leurs personnages et créer leur propre équipe dans le « Mode Succès », qui décrit la vie des joueurs.

Le succès est unique en ce sens qu'il est au tour par tour, sélectionnable par commande et démarre à partir de l'état initial à chaque fois que vous jouez, et qu'il dispose également d'un système unique qui diffère en fonction du « scénario » que vous sélectionnez. De plus, l'évaluation globale est déterminée en fonction de la capacité du joueur, qui est une représentation numérique de la capacité du joueur.

Aussi, le choix du scénario est aussi le choix du lycée que fréquente le personnage principal. Non seulement l'histoire change en fonction du lycée que vous fréquentez, mais vous pouvez également vivre des expériences complètement différentes et nouvelles dans d'autres écoles, y compris des choses sans rapport avec le football, comme l'entraînement des guerriers, l'élevage de monstres, la voile et les jeux de bingo. Comme pour tout autre système, il est important de les comprendre pour développer des acteurs forts.

Alors, quel est exactement le but de cet ajustement de l’équilibre des réussites ? Puisqu'il s'agit d'un jeu d'entraînement, l'environnement change considérablement à chaque ajout de nouveau contenu, mais l'ajout de scénarios a un impact particulièrement important. Des ajustements d'équilibrage seront effectués pour que le contenu ait l'impact attendu.

Rééquilibrer ce travail est extrêmement important, mais c’est aussi une tâche très difficile. En plus du temps requis pour la vérification, si les testeurs manquent de compétences de jeu et d'expérience, il y aura une déconnexion de la base de joueurs réelle et il y aura toujours la possibilité de prendre des décisions incorrectes basées sur des idées préconçues.

Les erreurs provoquées par cette difficulté peuvent conduire à diverses situations inattendues. Pour éviter cela, nous avons conçu la prise en charge de l’ajustement de l’équilibre à l’aide de l’IA d’apprentissage par renforcement.

La raison pour laquelle nous avons décidé d'introduire l'IA d'apprentissage par renforcement était qu'elle était compatible avec le gameplay de Success, qui a des tours et des actions limités et des objectifs (valeurs) clairs, et aussi parce qu'elle était capable de découvrir des stratégies qui prendraient beaucoup de temps. pour les humains. Il y avait des spéculations selon lesquelles cela pourrait être possible.

La conférence s'est poursuivie en présentant l'environnement dans lequel l'apprentissage par renforcement s'est réellement déroulé. À l’aide de plusieurs PC locaux, nous avons utilisé un simulateur et un programme d’apprentissage construits en C++ et Python. De plus, deux algorithmes, PPO et DQN (*), sont attribués à des personnes différentes, et une IA basée sur la logique est également utilisée.

De plus, pour DQN, nous avons pensé qu'en saisissant des actions en même temps au lieu de seulement des états, il serait possible de mieux apprendre dans des situations où peu d'actions peuvent réellement être effectuées.

*PPO (Proximal Policy Optimization) : un algorithme qui utilise uniquement les échantillons obtenus par la politique actuelle pour apprendre à trouver directement le gradient qui améliore la politique.

*DQN (Deep Q-Network) : algorithme qui gère la valeur des actions entreprises dans une situation spécifique en tant que valeur Q et utilise une fonction d'approximation pour déduire et déterminer l'action qui a la valeur Q la plus élevée = l'action qui devrait être pris.

L'utilisation de deux algorithmes peut conduire à une redondance, mais dans "Pawasaka", où le gameplay change considérablement selon le scénario, même si un algorithme échoue dans l'apprentissage, l'autre réussit, il y a donc certains avantages. allouer les joueurs les plus faibles.

Il existe également des situations où la première personne à jouer est l'IA immédiatement après que le planificateur a mis en place un nouvel élément. Dans de tels cas, il peut être difficile de juger si l'apprentissage a réussi ou non, ce qui peut provoquer de l'anxiété, mais si les deux algorithmes fonctionnent en parallèle et produisent des résultats similaires, vous pouvez être sûr du succès, ou si l'un des algorithmes Si les résultats ci-dessus sont obtenus, il est possible que quelque chose ait été oublié, ce qui nous donne une base de jugement.

Il a dit qu'il avait testé diverses méthodes d'apprentissage, mais qu'il avait opté pour une méthode d'apprentissage qui était réévaluée à partir de zéro chaque jour. Contrairement à l’apprentissage curriculaire et à l’apprentissage continu, qui nécessitent beaucoup de préparation, nous avons pu réagir immédiatement aux diverses évolutions de l’environnement et des spécifications.

Même avec cette méthode d’apprentissage simple, un cas intéressant s’est produit. Dans un gameplay, si vous choisissiez de vous entraîner sur des tours consécutifs, et dans un autre gameplay, si vous preniez en sandwich l'utilisation d'un objet de récupération de santé entre deux entraînements, le résultat était censé être le même, mais la valeur V était différente. En d’autres termes, l’IA peut avoir tendance à éviter les jeux qui nécessitent beaucoup de mouvements.

En réalité, l’utilisation d’objets de récupération de force physique ne nécessite pas de passage du temps comme les tours de jeu, mais dans l’apprentissage par renforcement, cela a probablement été jugé comme une étape. Cette situation pourrait être résolue en définissant le taux d'actualisation (*) à 1,0. À l’origine, une nouvelle action devait être définie, comme s’entraîner tout en utilisant l’objet, mais cette méthode augmenterait le nombre de définitions d’actions, ce qui entrerait en conflit avec la position consistant à donner la priorité à la vitesse d’apprentissage.

*Taux d'actualisation : coefficient qui détermine la façon dont la valeur changera lorsque la valeur attendue dans le futur sera convertie en valeur actuelle.

Malgré ces cas, l'IA d'apprentissage par renforcement qui a été réellement utilisée dans "Pawasaka" a démontré des performances suffisantes, bien qu'il y ait une certaine compatibilité avec les scénarios. Le nombre de jeux d'essai se situerait entre 100 000 et 200 000 fois.

Au cours des dernières étapes de développement, diverses personnes ont exprimé leur intérêt pour les résultats et diverses utilisations autres que les ajustements d'équilibrage ont été envisagées. Dans de telles situations, la facilité d'utilisation de l'IA varie considérablement en fonction du but d'utilisation et de l'utilisateur, donc qui utilise l'IA dans quel but est clairement géré en l'écrivant dans le Machine Learning Project Canvas de Mitsubishi Chemical Corporation.

Si quelqu'un qui n'a jamais utilisé l'IA auparavant l'utilise pour la première fois, il peut se sentir anxieux à l'idée d'ajouter une nouvelle tâche au flux, ou être sceptique quant à savoir s'il peut faire confiance aux résultats produits par l'IA. Cela est considéré comme coûteux.

Cependant, dans ce cas, l'IA a formé des joueurs de très haut rang dès les premiers stades de développement et a montré des résultats clairs, permettant au jeu de surmonter divers obstacles. Lors de la promotion de la mise en œuvre, il est important de présenter des indicateurs simples et faciles à comprendre.

Expliquer l’état actuel du fonctionnement de l’IA. La « coopération mutuelle » est importante, il ne faut pas tout laisser à tout le monde

Ensuite, lors de la conférence, il a expliqué l'état actuel de l'utilisation de l'IA par apprentissage par renforcement dans le fonctionnement actuel de « Pawasaka ». Actuellement, la vérification de l'IA par apprentissage par renforcement est ajoutée aux contrôles d'assurance qualité (assurance qualité) avant la mise en œuvre de nouveaux scénarios, en conjonction avec la vérification des testeurs d'assurance qualité.

En plus des développeurs, l'équipe IA compte également des opérateurs, qui facilitent la communication entre chaque équipe.

Le calendrier opérationnel doit être étroitement aligné sur le calendrier de développement. S’il n’est pas nécessaire de développer un simulateur en raison de l’ajout de scénarios, il n’est pas nécessaire de prendre en charge l’apprentissage par renforcement de l’IA, les contrôles peuvent donc être lancés immédiatement à moindre coût.

Le rôle que l’IA d’apprentissage par renforcement devrait jouer dans ce flux est de prendre en charge la difficulté de vérification par les humains (équipes d’assurance qualité). Il se charge de revérifier le même schéma, palliant ainsi au problème du petit nombre d'essais et d'idées préconçues.

Au cours de sa longue période de fonctionnement, l'IA d'apprentissage par renforcement de Pawasaka a acquis des capacités de jeu comparables à celles des humains. Cependant, il n’est toujours pas possible d’espérer un système de contrôle utilisant uniquement l’IA sans recourir à l’humain. Il existe toujours une certaine inquiétude quant à la fiabilité d'un seul résultat en raison de la possibilité de dysfonctionnements du simulateur, et il existe également d'autres points pour lesquels il n'y a aucune explication des résultats et le comportement peut devenir instable dans divers scénarios. faiblesses.

Ces problèmes sont apparus au cours de l'exploitation réelle, mais ils ont été résolus grâce au soutien de l'équipe d'assurance qualité, comme une double vérification, l'explication des résultats du jeu, l'acceptation de l'instabilité et la reconsidération du responsable.

De cette façon, dans le fonctionnement de « Pawasaka », la relation entre l'IA et les humains est devenue une relation de « coopération mutuelle », ce qui a rendu le flux plus fluide. La grande capacité de verbalisation de l’assurance qualité basée sur les connaissances (humains) et le large éventail de données comparatives fournies par l’IA basée sur les statistiques se soutiennent mutuellement.

Au cours de la conférence, des cas opérationnels réels ont également été présentés. Dans les deux cas, l’assurance qualité (humains) et l’IA se vérifient mutuellement, ce qui apporte divers avantages et permet d’éviter à l’avance les problèmes potentiels.

Un modèle créé par le QA (humain) et sauvegardé par l'IA à l'aide de statistiques.

Un modèle dans lequel il s’est avéré que l’IA avait de meilleurs résultats et utilisait une stratégie dont le contrôle qualité ignorait. Après la sortie du jeu, de nombreux joueurs ont effectivement suivi la méthode de jeu suggérée par l'IA, de sorte que toute rupture entre la direction et les joueurs ait pu être évitée à l'avance.

En revanche, le QA a eu un meilleur résultat. Les domaines que l’IA n’avait pas pu prendre en compte ont été identifiés, et les performances de l’IA ont été encore améliorées. Si nous avions testé l’IA seule, non seulement nous n’aurions pas pu nous attendre à cette amélioration des performances, mais il est également possible qu’elle ait été trompeuse.

Avec l'introduction de l'IA, les domaines difficiles à couvrir pour les testeurs d'assurance qualité sont couverts et, en plus de réduire les situations inattendues, cela rend également les contrôles plus fluides et plus rapides, et des ajustements basés sur des statistiques peuvent être effectués dans un court laps de temps, éliminant la nécessité de longues opérations d’essais et d’erreurs. En conséquence, l’environnement de test continue d’évoluer pour le mieux.

Cependant, un problème qui reste inchangé est que le développement du simulateur est affecté par des retards dans le développement initial, qu'il dépend fortement des connaissances spécialisées et de l'expérience de chaque personne au sein du flux, et qu'il est difficile de gérer des changements soudains de responsabilité. Il y a encore des domaines où cela est difficile à réaliser.

La présentation a également partagé ce que le responsable pensait être particulièrement important lorsqu'il s'agissait d'utiliser l'IA pour ajuster l'équilibre du « Power Saka ». Plutôt que d'affronter aveuglément la technologie, trouvez un « compromis », ayez une compréhension commune du rôle de l'IA, réfléchissez à la compatibilité avec le sujet et construisez un système opérationnel qui inclut l'équipe de développement dès le début. Ce sont les quatre points ci-dessus.

Il semblerait qu'une recherche conjointe ait été menée avec une équipe de l'Institut national d'informatique d'un point de vue académique sur de telles opérations d'apprentissage par renforcement. Je me suis intéressé aux opérations d'apprentissage par renforcement de l'IA après avoir appris qu'un article sur la comparaison comportementale des deux IA serait présenté à « ASE4Games 2022 », qui devrait avoir lieu en octobre 2022. Si tel est le cas, veuillez le consulter.

L'IA d'apprentissage par renforcement est désormais une partie importante de l'équipe de développement

A la fin de la conférence, il a conclu en soulignant que l'IA développée n'est pas toute-puissante et ne joue pas toujours le mieux. C'est pourquoi l'équipe de production a compris les forces et les faiblesses de l'IA et l'a acceptée.

Un épisode mémorable a eu lieu lorsqu'un membre de l'équipe de direction lui a dit : « L'IA est devenue plus expérimentée et le gameplay s'est amélioré. » En réalité, l'IA introduite cette fois n'a aucune capacité de mémoire et apprend à partir de zéro chaque jour, elle n'accumule donc pas d'expérience. Le fait que le personnel humain travaillant aux côtés de l’IA d’apprentissage par renforcement ait pu mieux la comprendre et grandir a probablement été considéré comme la croissance de l’IA.

L’IA par apprentissage par renforcement présente diverses forces, faiblesses et caractéristiques selon la société de production. Si nous les présentons, nous espérons que les gens les accepteront en tant que membres de l'équipe de production et développeront le jeu ensemble.

Je crois que de nombreuses personnes perçoivent encore l’IA comme étant à un niveau différent de celui des humains, par exemple en ayant des attentes excessives à l’égard de l’IA et en se méfiant des résultats. Les exemples spécifiques d'IA d'apprentissage par renforcement introduits cette fois par "Momotetsu" et "Pawasaka" doivent non seulement être utilisés pour réévaluer la relation avec une telle IA, mais également être considérés comme d'excellents conseils pour se sublimer vers des opérations d'IA plus avancées. voyez-le.