Dictionnaire numérique parlé du michif

Le projet a mobilisé et rendu accessible un ouvrage épuisé, en l'occurrence un dictionnaire de la langue michif intitulé The Michif Dictionary: Turtle Mountain Dictionary Chippewa Cree, dont la publication remonte à 1983.

Avec l'aide de locuteurs dont la langue maternelle était le michif, des partenaires du projet et de linguistes informaticiens, l'équipe a réalisé une version numérique parlée de ce précieux document, qu'on peut dorénavant consulter en ligne ou au moyen d'une application mobile.

Le projet a aussi permis d'élargir les capacités locales dans les technologies utilisées pour documenter et revitaliser les langues autochtones. Il a été financé en partie dans le cadre du Projet sur les technologies pour les langues autochtones canadiennes du CNRC.

Collaborateurs

Objectifs

  • Créer une version numérique, parlée, de l'ouvrage The Michif Dictionary: Turtle Mountain Dictionary Chippewa Cree
  • Bâtir des capacités locales dans les technologies servant à documenter et à revitaliser les langues autochtones

Produits livrables

  • Dictionnaire Mother Tongues Michif : dictionnaire numérique, parlé, disponible en ligne et sous forme d'application mobile
  • Application mobile Mother Tongues Michif : bientôt offerte sur Apple Store et Google Play

Activités

Développement de capacités

Le projet a permis d'élargir les capacités actuelles par la formation de nouveaux linguistes, langagiers et érudits métis dans les domaines de l'enregistrement audio, de l'application des technologies langagières et en annotation.

Enregistrement

Le projet a produit au-delà de 181 heures d'enregistrements audio de grande qualité du dictionnaire grâce à 4 locuteurs dont une, Verna DeMontigny, a enregistré le dictionnaire au complet, de la première à la dernière page, les 3 autres locuteurs en enregistrant des parties. Par conséquent, les 350 pages d'entrées lexicales et de phrases en michif servant d'exemple ont été enregistrées par au moins 1 locuteur, parfois 2 ou davantage. Les variantes du michif sont représentées dans ces différents enregistrements. Il était particulièrement important que le dialecte de Belcourt, au Dakota Nord, soit présent, car les auteurs du dictionnaire le parlaient.

Annotation

Les enregistrements audio ont été annotés avec ELAN, logiciel de source ouverte couramment employé pour documenter et revitaliser les langues. Ce logiciel produit des transcriptions chronométrées. Chaque enregistrement a automatiquement été segmenté en fonction des énoncés que séparait une pause, grâce à un service de détection de la parole s'appuyant sur un réseau de neurones profonds (RNP) mis au point au Centre de recherche informatique de Montréal (CRIM) dans le cadre du projet VESTA-ELAN. Cette segmentation automatique a permis d'économiser un temps incalculable lors de l'annotation du dictionnaire.

Une équipe de langagiers, autochtones ou pas, assistée d'un étudiant en linguistique appliquée a ensuite intégré le texte en michif et sa traduction anglaise, saisis par reconnaissance optique des caractères à partir de l'ouvrage original, à la transcription.

Révision et correction du texte saisi par reconnaissance optique des caractères (ROC)

Durant l'hiver 2021, 14 étudiants du baccalauréat à l'Université Carleton ont relu et corrigé à la main les 349 pages du dictionnaire saisies par ROC dans le cadre d'un projet combinant formation et service communautaire du cours ALDS 3903 Indigenous languages in Canada. Les étudiants ont utilisé Transkribus Lite pour repérer et rectifier les erreurs que les méthodes ROC, utilisées antérieurement, avaient glissées dans le texte du dictionnaire, lisible à la machine. Ils ont ainsi corrigé les fautes d'orthographe et rajouté les mots ou les lignes sur la page, que le logiciel ROC n'avait pu déchiffrer.

En tout, des erreurs ont été découvertes et rectifiées dans 1 600 lignes de texte, soit 8,5 % du dictionnaire. Ces corrections ont nettement amélioré la qualité générale de l'ouvrage. Après révision, le texte a été intégré au dictionnaire offert sur le Web et avec l'application mobile.

Diffusion

Le contenu du dictionnaire a été converti à partir du format d'origine, puis installé sur la plateforme Web Mother Tongues au moyen d'un simple flux de tâches qui permettra de l'enrichir, de le rectifier et de l'agrandir au fil des ans. La population peut consulter la version en ligne, qui compte 15 422 entrées. L'application mobile est prête à être lancée et sera bientôt offerte sur Apple Store et Google Play.

Équipe du projet

Prairies to Woodland Revitalization Circle
  • Heather Souter, co-directrice
  • Olivia Sammons, co-directrice
  • Verna DeMontigny, conseillère et technicienne en documentation autogénérée
  • Kai Pyle, documentariste principale
  • Wanda Smith, documentariste
  • Karen Langan, documentariste
  • Connie Henry, documentariste et spécialiste en annotations
  • Laura Grant, soutien à la gestion du projet
Soutien technique
  • Chris Cox, linguiste informaticien et conseiller
  • Jacob Collard, linguiste informaticien et responsable technique
  • Samantha Cornelius, linguiste et responsable de l'annotation
  • Fineen Davis, linguiste informaticienne
  • Anna Belew, linguiste et conseillère
  • Étudiants du cours ALDS 3903-C, Université Carleton, hiver 2021
  • Delaney Lothian, informaticienne
Turtle Mountain Community College – propriétaire du dictionnaire original
  • Kelly Hall (Ph. D.)
  • Terri Martin-Parisien (Ph. D.)
  • Teresa Delorme (Ph. D.)
  • Mme Laisee Allery
Locuteurs
  • Verna DeMontigny, The Corner (Manitoba)
  • Sandra R. Houle, Belcourt (Dakota Nord)
  • Albert Parisien, Belcourt (Dakota Nord)
  • Connie Henry, Boggy Creek (Manitoba)
Annotateurs
  • Breanne Beaubien
  • Caitlin Bergen
  • Maddison Brooks
  • Awanigizhik (Roderick) Bruce
  • Jessica Charest
  • Amanda Desormeaux
  • Terri Dixon
  • Jeanelle Dunkley
  • Mackenzie Elliot
  • Alexandra Ethier
  • Briana Faubert
  • Kaitlyn Foley
  • Cassandra Gaudard
  • Ashlyn Hickey
  • Chantelle Jackson
  • Mira Kolodka
  • Kim Laberinto
  • Jessica Lagimodiere
  • Madissan Le Bouthillier
  • Calista Mawakeesic
  • Sophie Melanson-Hayes
  • Marta Meljnik
  • Nabilah Muhammad-Yusuf
  • Daniel Ondercin
  • Jane Pepabano
  • Latasia Phan-Dos Reis
  • Nicole Reel
  • Alaa Sarji
  • Talula Schegel
  • India Schegel
  • Samantha Schwab
  • Dominique Simard
  • Carly Sommerlot
  • Gail Welburn
  • Janelle Zazalak
Bénévoles
  • Deanna Garand
  • Iwona Gniadek
  • Abby Graham
  • Rebecca Kirkpatrick
  • James Lavallee
  • Melanie Lavallee
  • Itziri Moreno
  • Bamidele Olowo-okere
  • Vasiliki Vita

Galerie d'images

Contactez-nous

Heather Souter, M. Ed., directrice des projets, secrétaire-trésorière et cofondatrice
Prairies to Woodlands Indigenous Language Revitalization Circle
Téléphone : 204-647-0081
Courriel : p2wilrc@gmail.com

Roland Kuhn, responsable
Projet sur les technologies pour les langues autochtones
Courriel : Roland.Kuhn@nrc-cnrc.gc.ca

Liens connexes