Est-il vrai que Square Enix utilise l'IA de génération ? Présentation d'un exemple d'utilisation de l'IA auto-créée « Hisui-chan » en entreprise [CEDEC+KYUSYU 2024]

« CEDEC+KYUSHU (Computer Entertainment Developers Conference) », l'une des plus grandes conférences pour les développeurs de divertissement informatique à Kyushu, s'est tenue le 23 novembre 2024.

Dans cet article, nous rendrons compte de la session de Square Enix « L'IA générative peut-elle aider les sociétés de jeux vidéo à améliorer leur efficacité commerciale ?[Conférencier]

  • Teruto Endo Square Enix Division IA et développement de moteurs Programmeur IA
  • Ryo Moritomo Chercheur en IA de la division IA et développement de moteurs de Square Enix
  • Chatbot Hisui-chan (*1) généré à l'aide de l'outil Azure Microsoft Audio Content Creation

*1 Un programme qui répond automatiquement aux questions des utilisateurs, telles que le texte ou la voix.

Quel genre de choses faites-vous en utilisant l’IA générative ?

Tout d’abord, les équipes auxquelles appartiennent M. Endo et M. Mori ont été présentées.

Square Enix lancera un département appelé « Division AI & Engine Development » en avril 2024. Les deux appartiennent à une équipe appelée « Generation AI Unit Mission ». Les principales activités sont les suivantes.

  • Vérification technique et mise en œuvre pour utiliser l'IA générative pour le soutien au développement
  • Animation d'ateliers et de sessions d'études en interne sur l'IA générative
  • Découvrez les nouvelles technologies d'IA et partagez-les au sein de l'entreprise


Au cours de cette session, des exemples d'utilisation en interne de l'IA générative et des initiatives de déploiement en interne ont été principalement présentés.

Les merveilles du chatbot multifonctionnel « Hisui-chan »

Dans la première moitié de l'exemple d'utilisation, M. Endo a expliqué le rôle de Hisui-chan, un chatbot présent à cette session.

Le rôle principal du chatbot multifonctionnel Hisui-chan est de soutenir les employés via des racines de chat spécifiques à l'entreprise et Slack. Une particularité est qu'il connaît le moteur propriétaire (en interne) développé par la division AI & Engine Development. Ils possèdent donc des connaissances que seuls les membres de l’entreprise connaissent. À propos, le modèle de langage à grande échelle sur lequel il est basé est le GPT-4o de ChatGPT.

Quand j'ai posé une question à Hisui-chan sur le moteur interne...

De cette façon, il vous donnera des informations détaillées. Il comprend également des liens vers des documents connexes, afin que vous puissiez consulter des informations plus détaillées.

De plus, il dispose de diverses fonctions telles que le chat, la réponse automatique aux messages Slack, l'analyse d'images, l'analyse de fichiers documentaires, etc. Grâce à ses connaissances générales, il peut également les utiliser pour résumer des textes et expliquer des photographies. Une caractéristique majeure est qu'il est multilingue ; si vous posez une question en japonais, il répondra en japonais, si vous posez une question en anglais, il répondra en anglais et il prend également en charge d'autres langues.

Comment obtenir un support multilingue ? Le cœur du jeu est une invite système qui détermine la personnalité d'Hisui-chan, qui détermine la langue et en dérive une réponse en conséquence. Plus précisément, « Azure AI Translator » est utilisé pour déterminer la langue d'entrée. Des invites système en japonais et en anglais sont fournies et, dans le cas d'autres langues, les invites système sont automatiquement traduites avant le traitement.

Avantages de l'introduction de l'IA Hisui-chan

Hisui-chan collecte des informations internes à l'aide d'une technologie appelée RAG (Retrieval Augmented Generation). Le mécanisme consiste à convertir les mots saisis par l'utilisateur en valeurs numériques, à les comparer avec des documents également numérisés et à présenter des documents avec une forte pertinence. Après cela, la réponse sera obtenue grâce à l’intelligence artificielle.

Il ne se contente pas de répondre, il corrige et répond également si le mot que vous saisissez est mal orthographié. Dans la démo qui a été jouée pendant la session, il y avait une scène où M. Endo a mal saisi "KYSHU" et Hisui-chan a répondu en le corrigeant en "KYUSHU", permettant ainsi de gérer des erreurs que le côté humain aurait pu négliger. . Cela semble être le cas.

Hisui-chan est composé de plusieurs services et données, y compris le service cloud Azure, qui comprend également des invites système pour définir le caractère unique d'Hisui-chan.

Avec l'introduction d'Hisui-chan, les membres peuvent désormais facilement poser des questions, même sur des sujets insignifiants, et les problèmes rencontrés par les utilisateurs du moteur peuvent désormais être rapidement résolus. De cette façon, la charge mentale et professionnelle est allégée et les effets seraient énormes. De plus, comme effet secondaire, plus les membres du développement du moteur rédigent de la documentation, plus les réponses d'Hisui-chan deviennent sophistiquées et plus détaillées on peut s'attendre à ce qu'elles soient, ce qui conduit à une motivation accrue parmi les membres, dit M. Endo.

Quels sont les moyens d’intéresser les gens à l’IA ?

Dans la seconde moitié de l'exemple d'application, M. Mori a expliqué comment l'IA générative est utilisée pour soutenir la création de textes pour des ateliers et des sessions d'étude en interne.

Le premier problème est de savoir comment intéresser les gens à l’entreprise. En annonçant le groupe d'étude, M. Mori souligne l'utilité et la commodité de l'IA générative en demandant à l'IA générative d'expliquer qu'il est possible de créer des phrases comme celle-ci, augmentant ainsi le nombre de participants dans le groupe d'étude. intéresser les gens.

En réponse à la question « Quel type d'applications dois-je introduire pour utiliser RAG ? », plusieurs exemples spécifiques ont été fournis, tels que « 1. Support client, 2. Génération de contenu ».

Dans l'image ci-dessus, les mots « texte factice pour CEDEC+KYUSHU 2024 » sont utilisés, et c'est également une fonction utile. Lors du partage de technologie au sein et à l'extérieur de l'entreprise lors de sessions d'étude, etc. Dans certains cas, cela peut ne pas être possible. pour afficher les données techniques. Dans de tels cas, en générant des données factices, vous pouvez montrer à l'autre partie quel type de traitement l'IA peut effectuer.

Par exemple, lors de la vérification si « l’IA générée peut être utilisée pour analyser des enquêtes », il n’est pas possible de partager les résultats des enquêtes auprès des utilisateurs réels pour des raisons de confidentialité. Cependant, en utilisant des données factices, il est possible de créer des résultats d’enquête inexistants qui semblent réels tout en se référant aux données d’enquête originales, et de partager les résultats de l’analyse. Cela réduit les obstacles au partage d’informations et permet des réponses flexibles.

De plus, Hisui-chan prend en charge plusieurs langues, il joue donc un rôle dans la prise en charge des sites de développement mondiaux d'aujourd'hui. Si vous ajoutez quelque chose comme « Veuillez traduire ce japonais en anglais » avec la phrase que vous souhaitez lui transmettre, cela la convertira dans la langue correspondante.

De plus, contrairement aux logiciels de traduction spécialisés, il est facile de combiner plusieurs tâches (telles que « résumer et traduire un texte » ou « écrire un texte en japonais et le traduire »), et il est facile de combiner des informations à partir de données telles que des images. L’un des points forts de l’IA générative est qu’elle peut effectuer des traductions.

Le multimodal fait référence à un système d’intelligence artificielle qui collecte des informations à partir de plusieurs données différentes, les intègre et les traite.

Découvrez toute la profondeur de l'IA générative à l'aide d'applications et d'outils uniques

Ensuite, M. Endo a expliqué les efforts de l'entreprise pour partager des informations au sein de l'entreprise.

La division IA et développement de moteurs mène un essai de mise en œuvre d'applications et d'outils simples utilisant l'IA afin que les employés puissent facilement essayer la technologie de l'IA. En partageant des applications et des outils, l’objectif principal est d’approfondir la compréhension de l’IA générative et de donner aux gens l’opportunité de réfléchir à de nouvelles façons de l’utiliser.

L'exemple présenté ici est une simple application Web appelée « système de génération magique ». Il s'agit d'un exemple d'application qui utilise l'IA de génération multimodale qui vous permet de générer de la magie à partir d'une image d'un cercle magique. Lors de la sortie, vous pouvez présenter les informations de format nécessaires telles que l'effet magique et la portée, et il les affichera également.

Cette application vous permet de tester et d'expérimenter ce que vous pouvez faire avec la multimodalité et le contrôle que vous avez sur le format. Un tel système de génération magique se compose de trois parties : une application Web, Azure Functions et Azure OpenAI Service.

Pour le contrôle du format de la magie de génération, nous utilisons ce qu'on appelle l'apprentissage Few-Shot. Il s'agit d'une méthode qui vous permet de fournir une petite quantité d'exemples (informations) et de les afficher dans un format similaire à cet exemple.

Quatre exemples de génération utilisant cette application ont été publiés. La première image a été créée à l’aide d’une IA générative appelée DALLE-3 et montre un corbeau à l’intérieur d’un cercle magique. La magie produite reflétait le fait qu'il s'agissait d'un corbeau, et de plus, les caractéristiques semblables à celles d'un corbeau, telles que l'intimidation et le comportement de groupe, étaient correctement incorporées dans les effets magiques.

La seconde est une illustration dessinée à la main par M. Endo. La flèche dessinée sur le cercle magique rappelle le vent, et le design simple est associé au cadre de la magie débutante.

La troisième pièce est un nouveau dessin ajouté au cercle magique dessiné à la main plus tôt. Il semble que l'image ajoutée ait été reconnue comme une flamme.

Il semble que l'image à charger ne doive pas nécessairement être un cercle magique ; la quatrième image est générée à partir d'une photo de nourriture. L'IA a reconnu la photo comme de la nourriture et a émis le feu utilisé pour la cuisine et les effets magiques liés à l'alimentation.

M. Endo a déclaré : « Plutôt que d'incorporer directement les données de sortie dans les produits, notre objectif principal est d'utiliser ces applications pour expérimenter les possibilités de l'IA générative et conduire à la création d'idées. » a-t-il déclaré.

La documentation est également importante lors de la création de chatbots

Comment ces applications sont-elles créées ? M. Endo a expliqué comment créer un chatbot équipé de RAG à titre d'exemple.

L'environnement et l'intelligence artificielle (LLM) utilisés pour la mise en œuvre sont les suivants. On suppose que n’importe qui peut le mettre en œuvre, donc même nous pouvons le créer si nous avons un certain nombre de connaissances.

Le processus de production de ce chatbot comprend cinq étapes : préparation préliminaire, construction rapide, préparation LLM, RAG et chat. M. Endo a résumé la commande d'une manière facile à comprendre, donc si vous êtes un créateur, veuillez vous référer aux captures d'écran ci-dessous dans la commande.

1. Préparation Préparez les bibliothèques et les documents nécessaires et téléchargez les documents

Tout document (texte) préparé ici convient.

2. Construction de l'invite Vérifiez le format de l'invite recommandée et implémentez la fonction pour la construire.

En répétant l'exécution et les ajustements en fonction de ces invites, votre compréhension de la construction s'approfondira.

3. Préparation du LLM Load LLM et tokenizer

Un « tokenizer » est un dispositif qui divise le texte saisi par l'utilisateur en petits morceaux appelés jetons et les convertit en nombres pouvant être traités par LLM. « Hugging Face » est une société qui fournit des logiciels open source tels que HuggingFace Transformers et gère une communauté. Le terme « Hugging Face » est inclus dans le programme pour indiquer clairement qu'il est utilisé en combinaison avec le logiciel Hugging Face.

4. Préparez le modèle intégré RAG à charger et à exécuter

Un modèle intégré est un modèle permettant de quantifier les entrées ou les documents des utilisateurs.

5. Chat Implémenter un chatbot

Après avoir suivi le processus ci-dessus, un simple chatbot est terminé. Quand nous avons posé la question « Quel est le nom du président de Square Enix ? »... Au fait, la bonne réponse est « Takashi Kiryu ».

Le chatbot a immédiatement répondu : « Takashi Kiryu ». Les kanji étaient corrects, mais la prononciation était fausse. En effet, le texte utilisé dans le document ne contenait pas de kana de lecture. M. Endo a déclaré que lors de l'utilisation de RAG, il est important non seulement de prendre en compte les performances de l'IA et la manière de mettre en œuvre le RAG, mais également de construire soigneusement la documentation originale.

Lorsque j'ai posé la même question à un chatbot qui n'utilise pas RAG, un nom complètement différent est apparu : « Kenichiro Ito ». On m'a rappelé que l'exactitude des réponses change grandement en fonction de la présence ou de l'absence de RAG.

Le plus grand défi de l’IA générative est le bon sens et l’éthique

De là, le relais sera passé à M. Mori. Il a évoqué les défis liés à l’utilisation de l’IA générative.

L’IA est utile, mais elle ne donne pas 100 % des réponses souhaitées. Ils peuvent répondre à la mauvaise chose comme si c'était la bonne chose, ou leurs réponses à certaines tâches peuvent être erratiques. En réponse, M. Mori déclare que lors de l'utilisation de l'IA générative, il est important de l'intégrer dans le flux de travail plutôt que de tout lui laisser.

Il est également important de prendre en compte les questions éthiques telles que le fait de donner des réponses susceptibles de nuire aux utilisateurs et les questions de droits telles que la violation des droits d'autrui. Cependant, même si ces mesures peuvent être parfaitement prises, il y aura toujours des problèmes propres à l'industrie du divertissement.

C'est la différence de bon sens et d'éthique dans chaque monde du travail. Bien qu’il existe un principe de base selon lequel la discrimination et la persécution ne devraient pas avoir lieu, il existe des cas où le bon sens et les points de vue éthiques qui s’écartent de la réalité sont tolérés en fonction de la vision du monde, de l’époque et du contexte.

M. Mori a résumé que le défi lié à l'utilisation de l'IA générative est la difficulté de gérer de manière appropriée « le bon sens et les valeurs éthiques qui sont les mêmes que les nôtres » tout en gérant également « le bon sens et les valeurs éthiques qui sont différentes des nôtres ». "