Sélectionner une page

Veni, Vidi, Vici : sans instructions ni aide, une intelligence artificielle domine désormais les humains dans un célèbre jeu vidéo multijoueur

1 Juin 2019 | 1 commentaire

Quake III Arena IA 2 19

Auparavant jugé trop compliqué, même pour les algorithmes, un agent intelligent (du domaine de l’intelligence artificielle (IA)) a été mis au point pour remporter des parties multijoueurs en ligne.

N’utilisant rien d’autre que le même point de vue basé sur les pixels et la même connaissance de l’état du jeu que les joueurs humains, les scientifiques dirigés par Max Jaderberg de la société de recherche DeepMind, propriété de Google, ont généré des agents d’IA pour jouer à une variante du jeu populaire Quake III Arena, appelé Capture the Flag (Capture de drapeaux), qui oppose deux équipes dans des environnements générés aléatoirement et qui doivent trouver et capturer des drapeaux ennemis dans la carte.

L’équipe a développé les agents en utilisant des techniques d’apprentissage par renforcement à travers le gameplay, et après 450 000 parties, les robots ont été en mesure de battre des joueurs humains professionnels, un exploit non négligeable dans un environnement si complexe avec autant de variables.

(Deepmind)

Quake III Arena IA 3 19

L’un des trois paradigmes de l’apprentissage machine, avec l’apprentissage supervisé et l’apprentissage non supervisé, l’apprentissage par renforcement n’utilise pas de combinaisons définitives d’entrées-sorties et n’exige pas la correction ou l’effacement des actions imparfaites.

Au lieu de cela, il équilibre l’exploration d’un domaine inconnu avec la découverte de toute connaissance recueillie à son sujet, parfait pour des conditions en perpétuelle évolution parmi un grand nombre d’agents, tels que ceux présents dans un jeu multijoueur.

Le but de l’étude DeepMind était que les agents apprennent vraiment par eux-mêmes lorsqu’ils commencent avec les mêmes informations dont disposerait un joueur humain. Cela signifiait aucune connaissance des règles et aucune capacité de communiquer et de partager des informations en dehors du jeu, alors que les précédentes itérations de travaux similaires donnaient les modèles logiciels de l’environnement ou l’état des autres acteurs.

Le processus d’apprentissage est optimisé en laissant les agents perdre un grand nombre de parties à la fois, en rassemblant les résultats pour obtenir une vue descendante des trucs et astuces que chaque agent a appris et en distribuant ensuite ces connaissances à la génération suivante. Comme un joueur humain, ils glanent de l’expérience sur la stratégie qui est ensuite applicable à une nouvelle carte, même s’ils ne connaissent pas sa disposition et sa topologie, ni l’intention ou la position des autres joueurs.

La capture du drapeau est jouée dans des environnements générés procéduralement, de sorte que les agents doivent généraliser à des cartes inconnues. (Deepmind)

Quake III Arena IA 4 19

Dans de telles circonstances, selon Jaderberg et ses collègues :

Le résultat est suffisamment incertain pour fournir un signal d’apprentissage significatif.

Le processus d’apprentissage par renforcement s’est déroulé en deux étapes, de l’optimisation du comportement d’un seul agent pour obtenir des récompenses qui est ensuite mise en correspondance avec les « hyper-paramètres » de l’ensemble des données. Les agents moins performants sont remplacés par des descendants qui internalisent les leçons apprises à tous les niveaux, une pratique également appelée  » formation basée sur la population  » (population-based training).

Les résultats furent remarquables. Même lorsque le système a ralenti les temps de réaction des agents jusqu’à ce qu’ils atteignent des niveaux humains moyens, ils ont tout de même atteint et dépassé les performances de ces derniers. Après des heures d’entraînement, les joueurs humains n’ont pas été capables de les battre dans plus de 25% des tentatives, et plus intéressant encore, les agents IA ont découvert et employé des tactiques gagnantes qui étaient couramment utilisées par les joueurs humains.

Mais l’ingrédient secrèt pourrait être dans la méthodologie parallèle et multijeu. Des systèmes similaires d’auto-apprentissage permettent aux agents intelligents de tester ce qu’ils ont appris par rapport à leurs propres politiques en un seul exercice, ils jouent littéralement contre eux-mêmes.

Outre leur performance au jeu Quake III Arena, les chercheurs notent que c’est l’évolutivité de l’approche qui offre des applications passionnantes sur des systèmes multi-agents où un apprentissage stable est nécessaire.

L’étude publiée dans Science : Human-level performance in 3D multiplayer games with population-based reinforcement learning et présentée sur le site de Deepmind : Capture the Flag: the emergence of complex cooperative agents.

Faire un Don !

Pourquoi ?

Parce qu’il n'y a aucune publicité ici et que le Guru compte sur la générosité de ses lecteurs(trices) pour continuer à faire vivre GuruMeditation (...et son créateur par la même occasion). D'autres méthodes vous seront proposées en plus de PayPal.

Un orang-outan est le premier non-humain à soigner des blessures à l’aide d’une plante médicinale

]Un orang-outan sauvage mâle de Sumatra a été observé en train d’appliquer les feuilles mâchées d’une plante aux propriétés médicinales connues sur une plaie de sa joue. Il s’agirait du premier cas documenté de traitement actif d’une plaie par un animal sauvage à l’aide d’une substance végétale biologiquement active connue.

Les chercheurs ont observé l’orang-outan, qu’ils ont baptisé Rakus, en juin 2022 dans la zone de recherche de Suaq Balimbing, dans le parc national de…

Des chercheurs reconstituent le visage d’une Néandertalienne à partir d’un crâne écrasé vieux de 75 000 ans

Une équipe de paléo-archéologues est présentée dans un nouveau documentaire dans lequel ces experts ont reconstitué le visage d’une femme néandertalienne ayant vécu il y a 75 000 ans.

Le crâne, écrasé en centaines de fragments probablement par un éboulement après la mort, a été déterré en 2018 dans la grotte de Shanidar, au Kurdistan irakien. Baptisés Shanidar Z, les restes du Néandertalien sont peut-être la partie supérieure d’un squelette découvert dans…

Des scientifiques créent des cerveaux hybrides souris-rat avec des neurones des deux espèces

Des chercheurs américains ont utilisé une technique spéciale pour éliminer les neurones de souris en développement, qu’ils ont remplacés par des cellules souches de rat. Ces cellules se sont transformées en neurones de rat dans le cerveau de la souris, qui est AINSI devenu un cerveau hybride. Chose remarquable, les rongeurs modifiés sont en bonne santé et se comportent normalement, ce qui est très prometteur pour les thérapies régénératives neuronales.

Les recherches ont été menées par deux équipes indépendantes, qui ont publié leurs résultats…

La vie s’est épanouie alors que le champ magnétique de la Terre a failli disparaître il y a 590 millions d’années

Le champ magnétique terrestre a failli s’effondrer il y a quelque 590 millions d’années, exposant vraisemblablement la vie à la surface de la planète à un risque d’augmentation du rayonnement cosmique.

Selon de nouvelles recherches, l’affaiblissement temporaire du bouclier magnétique aurait pu être tout sauf une catastrophe biologique. En fait, il pourrait avoir augmenté les niveaux d’oxygène, créant ainsi les conditions idéales pour l’épanouissement des premières formes de vie…

Les “rayures de tigre” de la lune de Saturne, Encelade, sont liées à ses spectaculaires geysers

Les mouvements des lignes de faille de la croûte gelée d’Encelade, une des lunes de Saturne, pourraient être à l’origine des panaches de matière glacée qui s’échappent du ventre aqueux de la lune, selon une équipe de chercheurs qui a récemment modélisé ces mouvements.

L’étude de l’équipe s’est concentrée sur les “rayures de tigre” d’Encelade, de longues fissures situées principalement dans les parties méridionales de la lune, que certains pensent avoir été causées par un ancien impact. D’autres chercheurs ont…

Plus de 90 % des oiseaux polaires sont contaminés par des microplastiques

Le plastique est pratiquement partout sur Terre. De la plus haute montagne aux plus grandes profondeurs des océans, des régions polaires à l’intérieur de notre corps, il n’y a plus moyen d’y échapper. Bien que la pollution plastique soit loin d’être un nouveau problème, l’ampleur de la pollution par les microplastiques n’est apparue que récemment.

La pollution plastique est généralement divisée en macroplastiques (>5 cm), microplastiques (0,1 µm-5 mm) et nanoplastiques (<0,1 µm). Plus le plastique est...

Des scientifiques trouvent un moyen de convertir les groupes sanguins et de les rendre mutuellement compatibles pour la transfusion

Les transfusions sanguines sauvent souvent la vie des patients qui ont désespérément besoin de remplacer leur sang perdu à la suite d’une intervention chirurgicale ou d’une blessure. Le problème est que les réserves de sang sont faibles dans le monde entier. Pour ne rien arranger, il existe plusieurs groupes sanguins, dont certains sont incompatibles. Par exemple, si votre groupe sanguin est O négatif, vous ne pouvez recevoir que du sang de type O négatif…

Le plus haut observatoire du monde entre en fonction au Chili

Pour le Livre Guinness des records, l’Observatoire d’Atacama de l’Université de Tokyo (TAO) est l’observatoire astronomique le plus haut du monde.

Le TAO se trouve à une altitude de 5 640 mètres au sommet d’une montagne dans le désert d’Atacama, au nord du Chili. Le télescope de 6,5 m optimisé pour les infrarouges est enfin opérationnel après 26 ans de planification et de construction…

La voile solaire avancée de la NASA s’est déployée sans encombre dans l’espace

La NASA a lancé son système de voile solaire composite avancé (Advanced Solar Sail) à bord d’une fusée Electron de RocketLab, déployant ainsi une voile de 9 mètres en orbite terrestre basse…

Des millions de joueurs du jeu vidéo Borderlands 3 font avancer la recherche biomédicale

Plus de 4 millions de joueurs jouant à un mini-jeu de science citoyenne dans le jeu vidéo Borderlands 3 ont aidé à reconstituer l’histoire de l’évolution microbienne des bactéries de l’intestin humain…

La vieille sonde Voyager 1 de la NASA rétablit la transmission de ses données après 5 mois de charabia

La sonde Voyager 1 a renvoyé des données exploitables pour la première fois depuis plus de 5 mois, ce qui laisse espérer que la mission, vieille de 46 ans, pourra enfin reprendre ses activités normales.

La sonde interstellaire préférée de la NASA a transmis samedi au centre de contrôle de la mission des données sur la santé et l’état de ses systèmes embarqués…

Photos : Lorsque deux satellites dans des directions opposées se croisent dans l’espace à 10 000 km/h

La sonde Lunar Reconnaissance Orbiter (LRO) de la NASA a pris une photo parfaitement synchronisée lorsqu’elle a croisé le chemin d’un autre engin spatial en orbite autour de la lune.

La sonde LRO, qui est en orbite autour de la lune depuis 15 ans, a pris plusieurs images de l’orbiteur lunaire Danuri de l’Institut de recherche aérospatiale de Corée, alors que les deux engins spatiaux, voyageant sur des orbites presque parallèles, se sont croisés dans des directions opposées au cours de trois orbites entre le 5 et le 6 mars…

Le professeur physicien Peter Higgs, célèbre pour avoir prédit l’existence du boson de Higgs, meurt à l’âge de 94 ans

Le professeur Peter Higgs, lauréat du prix Nobel, physicien théoricien britannique célèbre pour avoir prédit l’existence d’une nouvelle particule, le boson de Higgs, est décédé lundi 8 avril. L’université d’Édimbourg, où Higgs était professeur émérite, a annoncé mardi qu’il était « décédé paisiblement chez lui … à la suite d’une courte maladie ».

Les bosons de Higgs sont l’excitation quantique du champ de Higgs, un champ qui remplit tout l’univers et qui interagit avec les particules…

Voyager 1 : Les ingénieurs de la NASA ont repéré la puce défectueuse qui pourrait permettre de réparer l’ordinateur de la plus vieille sonde spatiale

L’une des plus anciennes (47 ans) et des plus lointaines sondes envoyées dans l’espace par l’humain, la sonde Voyager 1 souffre d’une importante défaillance qui l’empêche de transmettre des données scientifiques ou techniques vers la Terre. Les ingénieurs de la NASA ont réduit le problème de la sonde Voyager 1 à une seule puce défectueuse. Il pourrait désormais être possible de contourner la mémoire corrompue et de remettre la sonde interstellaire en état de marche…

Pin It on Pinterest

Share This