Veni, Vidi, Vici : sans instructions ni aide, une intelligence artificielle domine désormais les humains dans un célèbre jeu vidéo multijoueur

1 Juin 2019 | 1 commentaire

Auparavant jugé trop compliqué, même pour les algorithmes, un agent intelligent (du domaine de l’intelligence artificielle (IA)) a été mis au point pour remporter des parties multijoueurs en ligne.

N’utilisant rien d’autre que le même point de vue basé sur les pixels et la même connaissance de l’état du jeu que les joueurs humains, les scientifiques dirigés par Max Jaderberg de la société de recherche DeepMind, propriété de Google, ont généré des agents d’IA pour jouer à une variante du jeu populaire Quake III Arena, appelé Capture the Flag (Capture de drapeaux), qui oppose deux équipes dans des environnements générés aléatoirement et qui doivent trouver et capturer des drapeaux ennemis dans la carte.

L’équipe a développé les agents en utilisant des techniques d’apprentissage par renforcement à travers le gameplay, et après 450 000 parties, les robots ont été en mesure de battre des joueurs humains professionnels, un exploit non négligeable dans un environnement si complexe avec autant de variables.

(Deepmind)

L’un des trois paradigmes de l’apprentissage machine, avec l’apprentissage supervisé et l’apprentissage non supervisé, l’apprentissage par renforcement n’utilise pas de combinaisons définitives d’entrées-sorties et n’exige pas la correction ou l’effacement des actions imparfaites.

Au lieu de cela, il équilibre l’exploration d’un domaine inconnu avec la découverte de toute connaissance recueillie à son sujet, parfait pour des conditions en perpétuelle évolution parmi un grand nombre d’agents, tels que ceux présents dans un jeu multijoueur.

Le but de l’étude DeepMind était que les agents apprennent vraiment par eux-mêmes lorsqu’ils commencent avec les mêmes informations dont disposerait un joueur humain. Cela signifiait aucune connaissance des règles et aucune capacité de communiquer et de partager des informations en dehors du jeu, alors que les précédentes itérations de travaux similaires donnaient les modèles logiciels de l’environnement ou l’état des autres acteurs.

Le processus d’apprentissage est optimisé en laissant les agents perdre un grand nombre de parties à la fois, en rassemblant les résultats pour obtenir une vue descendante des trucs et astuces que chaque agent a appris et en distribuant ensuite ces connaissances à la génération suivante. Comme un joueur humain, ils glanent de l’expérience sur la stratégie qui est ensuite applicable à une nouvelle carte, même s’ils ne connaissent pas sa disposition et sa topologie, ni l’intention ou la position des autres joueurs.

La capture du drapeau est jouée dans des environnements générés procéduralement, de sorte que les agents doivent généraliser à des cartes inconnues. (Deepmind)

Dans de telles circonstances, selon Jaderberg et ses collègues :

Le résultat est suffisamment incertain pour fournir un signal d’apprentissage significatif.

Le processus d’apprentissage par renforcement s’est déroulé en deux étapes, de l’optimisation du comportement d’un seul agent pour obtenir des récompenses qui est ensuite mise en correspondance avec les « hyper-paramètres » de l’ensemble des données. Les agents moins performants sont remplacés par des descendants qui internalisent les leçons apprises à tous les niveaux, une pratique également appelée » formation basée sur la population » (population-based training).

Les résultats furent remarquables. Même lorsque le système a ralenti les temps de réaction des agents jusqu’à ce qu’ils atteignent des niveaux humains moyens, ils ont tout de même atteint et dépassé les performances de ces derniers. Après des heures d’entraînement, les joueurs humains n’ont pas été capables de les battre dans plus de 25% des tentatives, et plus intéressant encore, les agents IA ont découvert et employé des tactiques gagnantes qui étaient couramment utilisées par les joueurs humains.

Mais l’ingrédient secrèt pourrait être dans la méthodologie parallèle et multijeu. Des systèmes similaires d’auto-apprentissage permettent aux agents intelligents de tester ce qu’ils ont appris par rapport à leurs propres politiques en un seul exercice, ils jouent littéralement contre eux-mêmes.

Outre leur performance au jeu Quake III Arena, les chercheurs notent que c’est l’évolutivité de l’approche qui offre des applications passionnantes sur des systèmes multi-agents où un apprentissage stable est nécessaire.

L’étude publiée dans Science : Human-level performance in 3D multiplayer games with population-based reinforcement learning et présentée sur le site de Deepmind : Capture the Flag: the emergence of complex cooperative agents.

Faire un Don !



Pourquoi ?

Parce qu’il n'y a aucune publicité ici et que le Guru compte sur la générosité de ses lecteurs(trices) pour continuer à faire vivre GuruMeditation (...et son créateur par la même occasion). D'autres méthodes vous seront proposées en plus de PayPal.

← Article Précédent Article Suivant →

Derniers Articles

Les “rayures de tigre” de la lune de Saturne, Encelade, sont liées à ses spectaculaires geysers

Les mouvements des lignes de faille de la croûte gelée d’Encelade, une des lunes de Saturne, pourraient être à l’origine des panaches de matière glacée qui s’échappent du ventre aqueux de la lune, selon une équipe de chercheurs qui a récemment modélisé ces mouvements.

L’étude de l’équipe s’est concentrée sur les “rayures de tigre” d’Encelade, de longues fissures situées principalement dans les parties méridionales de la lune, que certains pensent avoir été causées par un ancien impact. D’autres chercheurs ont…

Lire

Plus de 90 % des oiseaux polaires sont contaminés par des microplastiques

Le plastique est pratiquement partout sur Terre. De la plus haute montagne aux plus grandes profondeurs des océans, des régions polaires à l’intérieur de notre corps, il n’y a plus moyen d’y échapper. Bien que la pollution plastique soit loin d’être un nouveau problème, l’ampleur de la pollution par les microplastiques n’est apparue que récemment.

La pollution plastique est généralement divisée en macroplastiques (>5 cm), microplastiques (0,1 µm-5 mm) et nanoplastiques (<0,1 µm). Plus le plastique est...

Lire

Des scientifiques trouvent un moyen de convertir les groupes sanguins et de les rendre mutuellement compatibles pour la transfusion

Les transfusions sanguines sauvent souvent la vie des patients qui ont désespérément besoin de remplacer leur sang perdu à la suite d’une intervention chirurgicale ou d’une blessure. Le problème est que les réserves de sang sont faibles dans le monde entier. Pour ne rien arranger, il existe plusieurs groupes sanguins, dont certains sont incompatibles. Par exemple, si votre groupe sanguin est O négatif, vous ne pouvez recevoir que du sang de type O négatif…

Lire

Le télescope spatial James Webb capture les meilleures images de la nébuleuse de la tête de cheval

L’une des plus célèbres structures du ciel terrestre vient d’être révélée sous un jour tout à fait nouveau.

Les observations dans l’infrarouge moyen et proche du télescope spatial James Webb (JWST/ Webb) ont mis en évidence des caractéristiques inédites dans le nuage spatial connu sous le nom de nébuleuse de la tête de cheval. Dans une image d’une précision époustouflante, le télescope spatial se concentre sur la région située au sommet de la tête du “cheval”, capturant des vrilles et des filaments…

Lire

Un plastique très résistant, chargé de bactéries, se mange lui-même lorsqu’il est mis en décharge

Des scientifiques ont trouvé une solution créative à la pollution plastique, l’un des problèmes environnementaux les plus urgents. Du plastique a été imprégné de spores de bactéries mangeuses de plastique qui s’activent lorsqu’elles sont mises en décharge, biodégradant 90 % du matériau en 5 mois. Plus étrange encore, cela rend le plastique plus résistant et plus solide à l’usage.

Le plastique est un matériau solide et polyvalent, mais les propriétés qui le rendent utile en font également un matériau difficile à éliminer…

Lire

Cinquante ans après, des scientifiques découvrent les causes de la formation d’un trou de la taille de la Suisse dans la glace de l’Antarctique

Chaque hiver austral, l’Antarctique subit un changement radical. La glace de mer l’entourant s’étend vers l’extérieur, doublant ainsi la taille du continent. Mais au cours des hivers 2016 et 2017, un trou inhabituel, appelé polynie, s’est ouvert au milieu de la glace de mer, un trou de la taille de la Suisse. Les scientifiques viennent de comprendre comment il s’est formé.

Ce trou a été baptisé polynie de Maud Rise en raison du mont sous-marin, ou montagne sous-marine, situé en dessous dans la mer de…

Lire

8 minutes de colère peuvent augmenter le risque d’infarctus du myocarde

Même de brèves périodes de colère engendrées par des souvenirs marquants peuvent avoir un impact négatif sur la capacité de nos vaisseaux sanguins à se détendre. C’est ce que révèle une nouvelle étude qui pourrait avoir des répercussions sur la façon dont nous abordons le risque de crise cardiaque et d’accident vasculaire cérébral.

Alors que des études observationnelles ont déjà établi un lien entre les émotions négatives telles que la colère et un risque accru de crise cardiaque, des scientifiques…

Lire

Dernières Brèves

Le plus haut observatoire du monde entre en fonction au Chili

Pour le Livre Guinness des records, l’Observatoire d’Atacama de l’Université de Tokyo (TAO) est l’observatoire astronomique le plus haut du monde.

Le TAO se trouve à une altitude de 5 640 mètres au sommet d’une montagne dans le désert d’Atacama, au nord du Chili. Le télescope de 6,5 m optimisé pour les infrarouges est enfin opérationnel après 26 ans de planification et de construction…

Lire

La voile solaire avancée de la NASA s’est déployée sans encombre dans l’espace

La NASA a lancé son système de voile solaire composite avancé (Advanced Solar Sail) à bord d’une fusée Electron de RocketLab, déployant ainsi une voile de 9 mètres en orbite terrestre basse…

Lire

Des millions de joueurs du jeu vidéo Borderlands 3 font avancer la recherche biomédicale

Plus de 4 millions de joueurs jouant à un mini-jeu de science citoyenne dans le jeu vidéo Borderlands 3 ont aidé à reconstituer l’histoire de l’évolution microbienne des bactéries de l’intestin humain…

Lire

La vieille sonde Voyager 1 de la NASA rétablit la transmission de ses données après 5 mois de charabia

La sonde Voyager 1 a renvoyé des données exploitables pour la première fois depuis plus de 5 mois, ce qui laisse espérer que la mission, vieille de 46 ans, pourra enfin reprendre ses activités normales.

La sonde interstellaire préférée de la NASA a transmis samedi au centre de contrôle de la mission des données sur la santé et l’état de ses systèmes embarqués…

Lire

Photos : Lorsque deux satellites dans des directions opposées se croisent dans l’espace à 10 000 km/h

La sonde Lunar Reconnaissance Orbiter (LRO) de la NASA a pris une photo parfaitement synchronisée lorsqu’elle a croisé le chemin d’un autre engin spatial en orbite autour de la lune.

La sonde LRO, qui est en orbite autour de la lune depuis 15 ans, a pris plusieurs images de l’orbiteur lunaire Danuri de l’Institut de recherche aérospatiale de Corée, alors que les deux engins spatiaux, voyageant sur des orbites presque parallèles, se sont croisés dans des directions opposées au cours de trois orbites entre le 5 et le 6 mars…

Lire

Le professeur physicien Peter Higgs, célèbre pour avoir prédit l’existence du boson de Higgs, meurt à l’âge de 94 ans

Le professeur Peter Higgs, lauréat du prix Nobel, physicien théoricien britannique célèbre pour avoir prédit l’existence d’une nouvelle particule, le boson de Higgs, est décédé lundi 8 avril. L’université d’Édimbourg, où Higgs était professeur émérite, a annoncé mardi qu’il était « décédé paisiblement chez lui … à la suite d’une courte maladie ».

Les bosons de Higgs sont l’excitation quantique du champ de Higgs, un champ qui remplit tout l’univers et qui interagit avec les particules…

Lire

Voyager 1 : Les ingénieurs de la NASA ont repéré la puce défectueuse qui pourrait permettre de réparer l’ordinateur de la plus vieille sonde spatiale

L’une des plus anciennes (47 ans) et des plus lointaines sondes envoyées dans l’espace par l’humain, la sonde Voyager 1 souffre d’une importante défaillance qui l’empêche de transmettre des données scientifiques ou techniques vers la Terre. Les ingénieurs de la NASA ont réduit le problème de la sonde Voyager 1 à une seule puce défectueuse. Il pourrait désormais être possible de contourner la mémoire corrompue et de remettre la sonde interstellaire en état de marche…

Lire

Rejoignez les ~~millions~~ quelques abonnées à GuruMeditation et inscrivez-vous aux lettres d'informations (News Letter) !

1 Commentaire

My KL sur 2 juin 2019 à 8 h 17 min

Bon il ne reste plus qu’a connecter ça aux robots de chez Boston Dynamics et de leur donner une arme réel.

C’est fascinant la quantité d’effort et de motivation que fourni l’homme pour scier sa propre branche. Triste futur
Réponse

Poster le commentaire Annuler la réponse

Ce site utilise Akismet pour réduire les indésirables. En savoir plus sur comment les données de vos commentaires sont utilisées.

Veni, Vidi, Vici : sans instructions ni aide, une intelligence artificielle domine désormais les humains dans un célèbre jeu vidéo multijoueur

(Deepmind)

La capture du drapeau est jouée dans des environnements générés procéduralement, de sorte que les agents doivent généraliser à des cartes inconnues. (Deepmind)

Pourquoi ?

Parce qu’il n'y a aucune publicité ici et que le Guru compte sur la générosité de ses lecteurs(trices) pour continuer à faire vivre GuruMeditation (...et son créateur par la même occasion). D'autres méthodes vous seront proposées en plus de PayPal.

Pourquoi ?

Derniers Articles

Les “rayures de tigre” de la lune de Saturne, Encelade, sont liées à ses spectaculaires geysers

Plus de 90 % des oiseaux polaires sont contaminés par des microplastiques

Des scientifiques trouvent un moyen de convertir les groupes sanguins et de les rendre mutuellement compatibles pour la transfusion

Le télescope spatial James Webb capture les meilleures images de la nébuleuse de la tête de cheval

Un plastique très résistant, chargé de bactéries, se mange lui-même lorsqu’il est mis en décharge

Cinquante ans après, des scientifiques découvrent les causes de la formation d’un trou de la taille de la Suisse dans la glace de l’Antarctique

8 minutes de colère peuvent augmenter le risque d’infarctus du myocarde

Dernières Brèves

Le plus haut observatoire du monde entre en fonction au Chili

La voile solaire avancée de la NASA s’est déployée sans encombre dans l’espace

Des millions de joueurs du jeu vidéo Borderlands 3 font avancer la recherche biomédicale

La vieille sonde Voyager 1 de la NASA rétablit la transmission de ses données après 5 mois de charabia

Photos : Lorsque deux satellites dans des directions opposées se croisent dans l’espace à 10 000 km/h

Le professeur physicien Peter Higgs, célèbre pour avoir prédit l’existence du boson de Higgs, meurt à l’âge de 94 ans

Voyager 1 : Les ingénieurs de la NASA ont repéré la puce défectueuse qui pourrait permettre de réparer l’ordinateur de la plus vieille sonde spatiale

NewsLetter

Bravo et Merci !

1 Commentaire

Poster le commentaire Annuler la réponse

Pin It on Pinterest

Veni, Vidi, Vici : sans instructions ni aide, une intelligence artificielle domine désormais les humains dans un célèbre jeu vidéo multijoueur

(Deepmind)

La capture du drapeau est jouée dans des environnements générés procéduralement, de sorte que les agents doivent généraliser à des cartes inconnues. (Deepmind)

Pourquoi ? Parce qu’il n'y a aucune publicité ici et que le Guru compte sur la générosité de ses lecteurs(trices) pour continuer à faire vivre GuruMeditation (...et son créateur par la même occasion). D'autres méthodes vous seront proposées en plus de PayPal.

Pourquoi ?

NewsLetter

Bravo et Merci !

1 Commentaire

Poster le commentaire Annuler la réponse

Pin It on Pinterest

Pourquoi ?

Parce qu’il n'y a aucune publicité ici et que le Guru compte sur la générosité de ses lecteurs(trices) pour continuer à faire vivre GuruMeditation (...et son créateur par la même occasion). D'autres méthodes vous seront proposées en plus de PayPal.