Revue TAL : Numéro spécial Traitement automatique des langues peu dotées (59-3)

Jusqu'à récemment, la plupart des travaux de recherche en Traitement Automatique des Langues (TAL) se sont concentrés sur quelques langues bien décrites et ayant de nombreux locuteurs. Le manque d'intérêt pour d'autres langues et variétés linguistiques «sous-dotées» peut s'expliquer par différentes raisons : manque de financement, de ressources humaines, de technologie appropriée, de descriptions linguistiques complètes et précises, de reconnaissance académique par la communauté scientifique, etc. Les langues sous-dotées posent néanmoins d'importants défis scientifiques qui ouvrent des pistes de progrès pour le TAL en général. Premièrement, à une époque où les méthodes de l'état de l'art nécessitent généralement de grandes quantités de données annotées, le travail sur des langues sous-dotées impose souvent des méthodes capables de traiter des jeux de données de petite taille (small data). Deuxièmement, compte tenu des difficultés à trouver des ressources telles que des lexiques ou des corpus, les données collectées sont souvent très hétérogènes et correspondent à différentes époques, aires linguistiques ou domaines, par exemple des corpus de textes intégrant différentes variétés géolinguistiques et portant sur différents sujets à différentes époques. Cette hétérogénéité implique aussi souvent des variations dans la graphie, dues soit à une évolution des normes orthographiques dans le temps, soit à l'absence de normes orthographiques pour les langues ou les variétés linguistiques qui sont essentiellement orales et rarement écrites. Troisièmement, les travaux de TAL pour les langues sous-dotées ont tendance à être réalisés dans des groupes de recherche isolés ou dispersés, et les ressources produites utilisent souvent des formats et des normes différents. Trouver ces ressources, y accéder et les rendre interopérables pour qu'elles puissent être réutilisées peut devenir un défi en soi. Quand il s'agit de langues sous-dotées, les questions d'interopérabilité des données et des métadonnées deviennent d'une importance cruciale pour combiner et réutiliser les quelques ressources et outils qui pourraient être disponibles.

L'objectif de ce numéro de Traitement Automatique des Langues (TAL) est de donner un aperçu de la recherche actuelle sur le TAL pour les langues sous-dotées du monde entier, englobant une grande variété de tâches.

Les auteurs sont invités à soumettre des documents originaux sur tous les aspects du TAL pour les langues sous-dotées, en particulier en ce qui concerne, mais sans s'y limiter, les questions et tâches suivantes :

  • Méthodes d'acquisition et de collecte de ressources et d'annotations (p. ex. OCR, crowdsourcing, etc.) pour les données orales et écrites
  • Normalisation orthographique et modèles basés sur les caractères pour gérer la variation orthographique
  • Projection d'annotations à partir de langues proches et modèles multilingues
  • Méthodes pour traiter le manque de données, les problèmes de qualité et les mots hors-vocabulaire
  • Identification de la langue et des variétés, en particulier pour les textes courts et les textes en plusieurs langues avec alternance codique
  • Apprentissage des langues assisté par ordinateur et outils d'aide à l'écriture (correction orthographique, clavier prédictif et complétion de mots)
  • Problèmes liés à la réutilisation des outils, techniques et ressources du TAL pour des langues autres que celles initialement ciblées, avec un intérêt particulier pour l'interopérabilité et la réutilisabilité des ressources et des outils
  • Approches informatisées pour la documentation des langues sous-dotées et en danger

Nous invitons également les auteurs à fournir une description courte mais précise des langues ou des variétés linguistiques étudiées, en mettant l'accent à la fois sur leurs caractéristiques linguistiques et sociolinguistiques :

  • Bref historique, localisation des locuteurs actuels ;
  • Principales propriétés linguistiques (morphologie, syntaxe) et famille de langues;
  • Système d'écriture ;
  • Vitalité, nombre approximatif de locuteurs et contextes d'utilisation. 
   

A NOTER

DATES IMPORTANTES

Date limite de soumission : 15 mai 2018 25 mai 2018

Notification aux auteurs, première relecture : 16 juillet 2018

Notification aux auteurs, seconde relecture : 30 septembre 2018

Version finale : 30 novembre 2018

Publication : janvier 2019

LA REVUE

La revue TAL (Traitement Automatique des Langues) est une revue internationale éditée depuis 1960 par l’ATALA (Association pour le Traitement Automatique des Langues) avec le concours du CNRS. Elle est maintenant publiée en format électronique, avec accès gratuit immédiat aux articles publiés, et impression annuelle à la demande. Cela ne change aucunement son processus de relecture et de sélection.

 

Personnes connectées : 1