Sélectionner une page

Une intelligence artificielle apprend le langage à travers les yeux d’un bébé

10 Fév 2024 | 0 commentaires

IA langage bebe 1 24

Sam avait 6 mois lorsqu’il a fixé pour la première fois une petite caméra sur son front. Pendant un an et demi, la caméra a capturé des bribes de sa vie. Il a crapahuté près des animaux de la famille, a regardé ses parents cuisiner et a pleuré sous le porche avec sa grand-mère. Pendant tout ce temps, la caméra enregistrait tout ce qu’il entendait. Ce qui ressemble à une mignonne vidéo familiale de bambin est en fait un concept audacieux : l’IA peut-elle apprendre le langage comme un enfant ? Les résultats pourraient également révéler comment les enfants acquièrent rapidement le langage et les concepts dès leur plus jeune âge.

Une nouvelle étude (lien plus bas) décrit comment des chercheurs ont utilisé les enregistrements de Sam pour entraîner une IA à comprendre le langage. Grâce à une infime partie de l’expérience de vie d’un enfant pendant un an, l’IA a pu saisir des concepts de base, par exemple une balle, un papillon ou un seau.

Image d’entête : les chercheurs ont formé un système d’IA multimodal à travers les yeux et les oreilles d’un seul enfant. (Center for Data Science de l’université de New York)

L’IA, appelée Child’s View for Contrastive Learning (CVCL), imite grosso modo la façon dont nous apprenons lorsque nous sommes tout-petits, en associant la vue à l’audio. Il s’agit d’une approche très différente de celle adoptée par les grands modèles linguistiques tels que ceux qui sont à l’origine de ChatGPT ou de Bard. L’étonnante capacité de ces modèles à rédiger des essais, des poèmes ou même des scripts de podcasts a enthousiasmé le monde entier. Mais pour développer ces compétences, ils doivent assimiler des milliards de mots provenant d’une grande variété d’articles de presse, de scénarios et de livres.

Les enfants, en revanche, apprennent avec beaucoup moins de données et généralisent rapidement leurs apprentissages au fur et à mesure qu’ils grandissent. Les scientifiques se demandent depuis longtemps si l’IA peut saisir ces capacités avec les seules expériences de la vie quotidienne.

Selon l’auteur de l’étude, le Dr Wai Keen Vong, du Center for Data Science de l’université de New York :

Nous montrons, pour la première fois, qu’un réseau neuronal formé à partir des données réalistes d’un seul enfant peut apprendre à relier les mots à leurs équivalents visuels.

Les enfants s’imprègnent facilement des mots et de leur signification grâce à leur expérience quotidienne. Dès l’âge de 6 mois, ils commencent à associer des mots à ce qu’ils voient, par exemple, un objet rond et rebondissant est une « balle ». À l’âge de 2 ans, ils connaissent environ 300 mots et leurs significations.

Depuis longtemps, les scientifiques débattent de la manière dont cela se produit. Selon une théorie, les enfants apprennent à faire correspondre ce qu’ils voient à ce qu’ils entendent. Une autre suggère que l’apprentissage d’une langue nécessite une expérience plus large du monde, telle que l’interaction sociale et la capacité à raisonner. Il est difficile de distinguer ces idées à l’aide de tests cognitifs traditionnels chez les tout-petits. Mais nous pourrions obtenir une réponse en formant une IA à travers les yeux et les oreilles d’un enfant.

La nouvelle étude a exploité une riche ressource vidéo appelée SAYCam, qui comprend des données recueillies auprès de trois enfants âgés de 6 à 32 mois à l’aide de caméras de type GoPro attachées à leur front. Deux fois par semaine, les caméras ont enregistré environ une heure de séquences vidéo et audio pendant que les enfants tétaient, rampaient et jouaient. Tous les dialogues audibles ont été transcrits en « énoncés », c’est-à-dire en mots ou en phrases prononcés avant que le locuteur ou la conversation ne change. Le résultat est une mine de données multimédias du point de vue des bébés et des jeunes enfants.

Pour le nouveau système, l’équipe a conçu deux réseaux neuronaux avec un « juge » pour les coordonner. L’un d’eux traduit les images à la première personne en qui et le quoi de la scène, est-ce une mère qui cuisine ? L’autre a déchiffré les mots et les significations des enregistrements audio. Les deux systèmes ont ensuite été corrélés dans le temps afin que l’IA apprenne à associer les images correctes aux mots. Par exemple, l’IA a appris à associer l’image d’un bébé aux mots « Regarde, il y a un bébé » ou l’image d’un ballon de yoga aux mots « Wow, c’est un gros ballon ». Avec l’entraînement, elle a progressivement appris à séparer le concept d’un ballon de yoga de celui d’un bébé. Cela permet au modèle de savoir quels mots doivent être associés à quels objets.

L’équipe a ensuite entraîné l’IA sur des vidéos datant d’environ un an et demi de la vie de Sam. Au total, cela représente plus de 600 000 images vidéo, associées à 37 500 paroles transcrites. Bien que cela paraisse important, cela ne représente que 1 % de la vie quotidienne de Sam et est négligeable par rapport à la quantité de données utilisées pour former de grands modèles de langage.

Pour tester le système, l’équipe a adapté un test cognitif courant utilisé pour mesurer les capacités linguistiques des enfants. Ils ont montré à l’IA quatre nouvelles images : un chat, un berceau, une balle et une pelouse, et lui ont demandé laquelle était la balle. Dans l’ensemble, l’IA a choisi la bonne image dans environ 62 % des cas. Les performances ont presque égalé celles d’un algorithme de pointe formé sur 400 millions de paires d’images et de textes provenant du web, soit une quantité de données supérieure à celle utilisée pour former l’IA dans le cadre de l’étude. Les chercheurs ont constaté qu’il était essentiel de lier les images vidéo à l’audio. Lorsque l’équipe a mélangé les images vidéo et les paroles qui leur étaient associées, le modèle s’est complètement effondré.

L’IA pouvait également « sortir des sentiers battus » et s’adapter à de nouvelles situations. Lors d’un autre test, elle a été entraînée sur le point de vue de Sam concernant un livre d’images, alors que son parent lui disait : « C’est un canard et un papillon. » Plus tard, il a brandi un papillon en jouet lorsqu’on lui a demandé : « Peux-tu faire le papillon ? ». Face à des images de papillons multicolores, que l’IA n’avait jamais vues auparavant, elle a détecté trois exemples sur quatre pour le mot « papillon » avec une précision supérieure à 80 %.

Tous les concepts de mots n’ont pas obtenu les mêmes résultats. Par exemple, le mot « cuillère » a donné du fil à retordre à l’IA. Mais il convient de souligner que, à l’instar d’un reCAPTCHA difficile, les images d’entraînement étaient difficiles à déchiffrer, même pour un humain.

L’IA s’appuie sur les progrès récents de l’apprentissage automatique multimodal, qui combine texte, images, audio ou vidéo pour entraîner une machine. À partir de l’expérience d’un seul enfant, l’algorithme a été en mesure de comprendre comment les mots sont liés les uns aux autres et de les associer à des images et à des concepts. Il semble que pour les tout-petits, le fait d’entendre des mots et de les associer à ce qu’ils voient contribue à enrichir leur vocabulaire. Cela ne veut pas dire que d’autres processus cérébraux, tels que les signaux sociaux et le raisonnement, n’entrent pas en jeu. Pour les chercheurs, l’ajout de ces éléments à l’algorithme pourrait potentiellement l’améliorer.

L’équipe prévoit de poursuivre l’expérience. Pour l’instant, l’IA « bébé » n’apprend qu’à partir d’images fixes et son vocabulaire est essentiellement composé de noms. L’intégration de séquences vidéo dans la formation pourrait aider l’IA à apprendre des verbes, car la vidéo comprend des mouvements. L’ajout de l’intonation aux données vocales pourrait également s’avérer utile. Les enfants apprennent très tôt que le « hmm » de leur mère peut avoir des significations très différentes en fonction du ton.

Dans l’ensemble, la combinaison de l’IA et des expériences de la vie est une nouvelle et puissante méthode d’étude des cerveaux humains et des machines. Elle pourrait nous aider à développer de nouveaux modèles d’IA qui apprennent comme les enfants, et potentiellement redéfinir les connaissances sur la façon dont notre cerveau apprend le langage et les concepts.

L’étude publiée dans Science : Grounded language acquisition through the eyes and ears of a single child et présentée sur le site de l’Université de New York : AI Learns Through the Eyes and Ears of a Child.

Il n’y a aucune publicité sur GuruMeditation et le Guru ne compte que sur la reconnaissance de ses lecteurs/ lectrices. 

Merci pour votre aide !

Le Guru fait une pause dans ses écrits, car il a besoin de votre soutien !

Le Guru lance un appel aux dons afin de l’aider à poursuivre son activité…

Un orang-outan est le premier non-humain à soigner des blessures à l’aide d’une plante médicinale

]Un orang-outan sauvage mâle de Sumatra a été observé en train d’appliquer les feuilles mâchées d’une plante aux propriétés médicinales connues sur une plaie de sa joue. Il s’agirait du premier cas documenté de traitement actif d’une plaie par un animal sauvage à l’aide d’une substance végétale biologiquement active connue.

Les chercheurs ont observé l’orang-outan, qu’ils ont baptisé Rakus, en juin 2022 dans la zone de recherche de Suaq Balimbing, dans le parc national de…

Des chercheurs reconstituent le visage d’une Néandertalienne à partir d’un crâne écrasé vieux de 75 000 ans

Une équipe de paléo-archéologues est présentée dans un nouveau documentaire dans lequel ces experts ont reconstitué le visage d’une femme néandertalienne ayant vécu il y a 75 000 ans.

Le crâne, écrasé en centaines de fragments probablement par un éboulement après la mort, a été déterré en 2018 dans la grotte de Shanidar, au Kurdistan irakien. Baptisés Shanidar Z, les restes du Néandertalien sont peut-être la partie supérieure d’un squelette découvert dans…

Des scientifiques créent des cerveaux hybrides souris-rat avec des neurones des deux espèces

Des chercheurs américains ont utilisé une technique spéciale pour éliminer les neurones de souris en développement, qu’ils ont remplacés par des cellules souches de rat. Ces cellules se sont transformées en neurones de rat dans le cerveau de la souris, qui est AINSI devenu un cerveau hybride. Chose remarquable, les rongeurs modifiés sont en bonne santé et se comportent normalement, ce qui est très prometteur pour les thérapies régénératives neuronales.

Les recherches ont été menées par deux équipes indépendantes, qui ont publié leurs résultats…

La vie s’est épanouie alors que le champ magnétique de la Terre a failli disparaître il y a 590 millions d’années

Le champ magnétique terrestre a failli s’effondrer il y a quelque 590 millions d’années, exposant vraisemblablement la vie à la surface de la planète à un risque d’augmentation du rayonnement cosmique.

Selon de nouvelles recherches, l’affaiblissement temporaire du bouclier magnétique aurait pu être tout sauf une catastrophe biologique. En fait, il pourrait avoir augmenté les niveaux d’oxygène, créant ainsi les conditions idéales pour l’épanouissement des premières formes de vie…

Les “rayures de tigre” de la lune de Saturne, Encelade, sont liées à ses spectaculaires geysers

Les mouvements des lignes de faille de la croûte gelée d’Encelade, une des lunes de Saturne, pourraient être à l’origine des panaches de matière glacée qui s’échappent du ventre aqueux de la lune, selon une équipe de chercheurs qui a récemment modélisé ces mouvements.

L’étude de l’équipe s’est concentrée sur les “rayures de tigre” d’Encelade, de longues fissures situées principalement dans les parties méridionales de la lune, que certains pensent avoir été causées par un ancien impact. D’autres chercheurs ont…

Plus de 90 % des oiseaux polaires sont contaminés par des microplastiques

Le plastique est pratiquement partout sur Terre. De la plus haute montagne aux plus grandes profondeurs des océans, des régions polaires à l’intérieur de notre corps, il n’y a plus moyen d’y échapper. Bien que la pollution plastique soit loin d’être un nouveau problème, l’ampleur de la pollution par les microplastiques n’est apparue que récemment.

La pollution plastique est généralement divisée en macroplastiques (>5 cm), microplastiques (0,1 µm-5 mm) et nanoplastiques (<0,1 µm). Plus le plastique est...

Le plus haut observatoire du monde entre en fonction au Chili

Pour le Livre Guinness des records, l’Observatoire d’Atacama de l’Université de Tokyo (TAO) est l’observatoire astronomique le plus haut du monde.

Le TAO se trouve à une altitude de 5 640 mètres au sommet d’une montagne dans le désert d’Atacama, au nord du Chili. Le télescope de 6,5 m optimisé pour les infrarouges est enfin opérationnel après 26 ans de planification et de construction…

La voile solaire avancée de la NASA s’est déployée sans encombre dans l’espace

La NASA a lancé son système de voile solaire composite avancé (Advanced Solar Sail) à bord d’une fusée Electron de RocketLab, déployant ainsi une voile de 9 mètres en orbite terrestre basse…

Des millions de joueurs du jeu vidéo Borderlands 3 font avancer la recherche biomédicale

Plus de 4 millions de joueurs jouant à un mini-jeu de science citoyenne dans le jeu vidéo Borderlands 3 ont aidé à reconstituer l’histoire de l’évolution microbienne des bactéries de l’intestin humain…

La vieille sonde Voyager 1 de la NASA rétablit la transmission de ses données après 5 mois de charabia

La sonde Voyager 1 a renvoyé des données exploitables pour la première fois depuis plus de 5 mois, ce qui laisse espérer que la mission, vieille de 46 ans, pourra enfin reprendre ses activités normales.

La sonde interstellaire préférée de la NASA a transmis samedi au centre de contrôle de la mission des données sur la santé et l’état de ses systèmes embarqués…

Photos : Lorsque deux satellites dans des directions opposées se croisent dans l’espace à 10 000 km/h

La sonde Lunar Reconnaissance Orbiter (LRO) de la NASA a pris une photo parfaitement synchronisée lorsqu’elle a croisé le chemin d’un autre engin spatial en orbite autour de la lune.

La sonde LRO, qui est en orbite autour de la lune depuis 15 ans, a pris plusieurs images de l’orbiteur lunaire Danuri de l’Institut de recherche aérospatiale de Corée, alors que les deux engins spatiaux, voyageant sur des orbites presque parallèles, se sont croisés dans des directions opposées au cours de trois orbites entre le 5 et le 6 mars…

Le professeur physicien Peter Higgs, célèbre pour avoir prédit l’existence du boson de Higgs, meurt à l’âge de 94 ans

Le professeur Peter Higgs, lauréat du prix Nobel, physicien théoricien britannique célèbre pour avoir prédit l’existence d’une nouvelle particule, le boson de Higgs, est décédé lundi 8 avril. L’université d’Édimbourg, où Higgs était professeur émérite, a annoncé mardi qu’il était « décédé paisiblement chez lui … à la suite d’une courte maladie ».

Les bosons de Higgs sont l’excitation quantique du champ de Higgs, un champ qui remplit tout l’univers et qui interagit avec les particules…

Voyager 1 : Les ingénieurs de la NASA ont repéré la puce défectueuse qui pourrait permettre de réparer l’ordinateur de la plus vieille sonde spatiale

L’une des plus anciennes (47 ans) et des plus lointaines sondes envoyées dans l’espace par l’humain, la sonde Voyager 1 souffre d’une importante défaillance qui l’empêche de transmettre des données scientifiques ou techniques vers la Terre. Les ingénieurs de la NASA ont réduit le problème de la sonde Voyager 1 à une seule puce défectueuse. Il pourrait désormais être possible de contourner la mémoire corrompue et de remettre la sonde interstellaire en état de marche…

Pin It on Pinterest

Share This