Une intelligence artificielle pour décrypter les langues oubliées
Des chercheurs du Massachusetts Institute of Technology (MIT/ Etats-Unis) ont créé un nouveau système qui utilise l’apprentissage automatique pour aider les linguistes à déchiffrer des langues éteintes/ qui ont été oubliées. Les recherches suggèrent que la plupart de celles qui ont un jour existé ne sont plus parlées, des dizaines de langues “mortes” étant considérées comme non déchiffrées. Les linguistes ne connaissent pas suffisamment la grammaire, le vocabulaire et la syntaxe pour comprendre les textes laissés dans ces langues éteintes.
Image d’entête : les chercheurs du MIT ont étudié l’Ougaritique, une langue éteinte qui est liée à l’hébreu et qui a été précédemment analysée et déchiffrée par des linguistes. (S.R.K. Branavan)
Les défis auxquels ils sont confrontés sont nombreux, notamment le fait que la plupart de ces langues perdues n’ont pas de langue relative bien documentée à laquelle on puisse les comparer. Certaines manquent également de séparateurs comme les espaces et la ponctuation. Le laboratoire d’informatique et d’intelligence artificielle du MIT (CSAIL pour Computer Science and Artificial Intelligence Laboratory) a récemment fait une percée dans leur décryptage.
Les chercheurs ont créé un nouveau système qui a été capable de déchiffrer automatiquement une langue oubliée sans exiger de connaissances avancées sur sa relation avec d’autres. Le système peut déterminer les relations entre les langues, et récemment, il a été utilisé pour suggérer que la l’ibère n’est pas une langue liée au basque, comme le croient certains linguistes. Les scientifiques du projet ont pour objectif ultime de pouvoir déchiffrer les langues qui ont déconcerté les linguistes en n’utilisant que quelques milliers de mots.
Selon Regina Barzilay, chef de projet, le système repose sur sept principes basés sur des connaissances linguistiques historiques. Selon ces principes, les langues n’évoluent généralement que de manière prévisible. Elles ajoutent ou suppriment rarement un son entier, et des substitutions de sons sont susceptibles de se produire. Par exemple, un mot avec un « P » dans une langue parente peut se transformer en un « B » dans une langue descendante, mais il est peu probable qu’il se transforme en un « K » en raison de l’écart de prononciation.
En utilisant ces contraintes linguistiques, les chercheurs du MIT ont développé un algorithme de déchiffrement capable de gérer le vaste éventail de transformations possibles. L’algorithme apprend à intégrer les sons de la langue dans un espace multidimensionnel où les différences de prononciation se reflètent dans la distance entre les vecteurs correspondants. Le modèle vise à segmenter les mots d’une langue ancienne et à les mettre en correspondance avec des équivalents dans une langue apparentée.
A partir de l’étude : un aperçu du système de décryptage qui génère les textes perdus à partir d’unités plus petites, des caractères aux symboles et des symboles aux inscriptions. ( Un aperçu de notre cadre qui génère les textes perdus à partir d’unités plus petites – des caractères aux symboles et des symboles aux inscriptions. et col./ CSAIL/ MIT)
L’étude disponible sur le site du Computer Science and Artificial Intelligence Laboratory (PDF) : Deciphering Undersegmented Ancient Scripts Using Phonetic Prior et présentée sur le site du MIT : Translating lost languages using machine learning.