Studio de lecture accompagnée : une application pour les livres audio et les vidéos dans les langues autochtones

Le studio de lecture accompagnée est une application d'extension en ligne pour les livres audio, les vidéos et d'autres types de fichiers en langues autochtones. Les mots à l'écran sont surlignés lorsqu'ils sont lus ou chantés à voix haute. Le lecteur peut cliquer sur n'importe quel mot pour entendre sa prononciation.

Le studio de lecture accompagnée nécessite une transcription des fichiers audio ou vidéo et peut être appliqué à un large éventail de langues. Cette technologie est actuellement utilisée pour les langues suivantes : algonquin, atikamekw, cri du Nord-Est, cri du Sud-Est, gitksan, gwich'in, hän, kaska, mohawk, SENĆOŦEN, seneca, tagish, haut tanana, tlingit, tutchone du Nord et tutchone du Sud. Elle pourrait également être appliquée au michif, au cri de Moose, au cri des marais, à l'inuktitut, à l'inuktitut de l'Ouest, au kwak'wala, au mi'kmaq, à l'ojibwe, au tsuut'ina et plus encore.

Collaborateurs

Objectifs

  • Mettre au point le moteur sur mesure et sous-jacent d'association graphème-phonème nécessaire à l'alignement de l'audio et du texte.
  • Mettre à l'essai la technologie avec des langues autochtones et non autochtones et avec différents types de textes (histoires, chansons, vidéos), afin de garantir sa robustesse.
  • À court terme : Aligner les mots prononcés (audio ou vidéo) avec les transcriptions existantes (texte) et produire des vidéos de cet alignement.
  • À long terme : Concevoir une interface facile à utiliser où l'audio et le texte sont visuellement alignés, et écrire un code simple pour que le studio de lecture accompagnée puisse être facilement intégré à n'importe quel site Web. Notre objectif est de permettre aux communautés autochtones de réaliser leurs propres vidéos de lecture accompagnée.
  • Créer une fonction d'exportation vers les documents EPUB utilisés par de nombreux lecteurs électroniques, vers les fichiers Praat et ELAN utilisés par les logiciels d'annotation linguistique les plus répandus, et vers les formats de sous-titres standard pour l'intégration aux vidéos et à YouTube.

Réalisations attendues

  • Code source du studio de lecture accompagnée, moteur d'association graphème-phonème (en anglais seulement) et interface utilisateur
  • Vidéos de lectures accompagnées produites par le CNRC, l'Université Carleton et les communautés
    • Achevées
    • En cours
      • Gitksan : 3 vidéos produites par l'équipe du CNRC
      • Gwichʼin : 1 vidéo produite par l'équipe du CNRC
      • Hän : 1 vidéo produite par l'équipe du CNRC
      • Kaska : 1 vidéo produite par l'équipe du CNRC
      • Mohawk (dialecte d'Ohsweken) : 3 vidéos produites par l'équipe du CNRC
      • SENĆOŦEN : 2 vidéos produites par l'équipe du CNRC
      • Tagish : 1 vidéo produite par l'équipe du CNRC
      • Haut tanana : 1 vidéo produite par l'équipe du CNRC
      • Tlingit : 1 vidéo produite par l'équipe du CNRC
      • Tutchone du Nord : 1 vidéo produite par l'équipe du CNRC
      • Tutchone du Sud : 1 vidéo produite par l'équipe du CNRC
    • Prévues ou possibles
      • Michif
      • Cri de Moose
      • Cri des marais
      • Inuktitut
      • Inuktitut de l'Ouest
      • Kwak'wala
      • Mi'kmaq
      • Ojibwe
      • Tsuut'ina

Équipe du projet

  • Delasie Torkornoo, programmeur, Université Carleton
  • David Huggins Daines, bénévole
  • Eric Joanis, agent du Conseil de recherches, CNRC
  • Aidan Pine, agent de recherches, CNRC
  • Patrick Littell, attaché de recherches, CNRC
  • Mark Tessier, programmeur, CNRC
  • Fineen Davis, programmeur, CNRC
  • Shankhalika Srikanth, étudiante, CNRC
  • Sabrina Yu, étudiante, CNRC

Contactez-nous

Delasie Torkornoo, Directeur technique,
Projet de dictionnaires et de ressources linguistiques pour les langues algonquiennes de l'Université Carleton
Email: Delasie.Torkornoo@carleton.ca

Roland Kuhn, Chef de projet,
Projet sur les technologies pour les langues autochtones du CNRC
Courriel : Roland.Kuhn@nrc-cnrc.gc.ca

Liens connexes