Segmentation et indexation des enregistrements audio de langues autochtones

 

On possède des dizaines de milliers d'heures d'enregistrement dans les langues autochtones. Malheureusement, ces enregistrements n'ont été ni annotés ni indexés, si bien que la recherche par mots-clés est impossible. Le CNRC collabore avec le Centre de recherche informatique de Montréal et d'autres partenaires pour mettre au point les technologies avec lesquelles on segmentera et indexera ces enregistrements, ce qui en facilitera l'annotation et permettra la recherche par mots-clés.

Jusqu'à présent, le travail s'est concentré sur l'inuktitut et le cri, mais l'on se tourne maintenant vers d'autres langues, comme le tsuut'ina et le michif, afin d'en préciser les particularités et de s'assurer que les outils créés pourront s'appliquer à un vaste ensemble de langues autochtones.

Collaborateurs

Centre de recherche informatique de Montréal (CRIM)

Le Centre de recherche informatique de Montréal (CRIM) jouit depuis longtemps d'une renommée enviable grâce à ses réalisations dans les techniques de reconnaissance de la parole. Sa technologie d'indexation du contenu audio crée un catalogue du contenu parlé de très grandes bases de données audio, qu'il est ensuite possible de consulter au moyen d'un moteur de recherche. Le CRIM a notamment appliqué cette technique aux archives de l'Office national du film (ONF) ainsi qu'aux témoignages de la Commission Bastarache. La technologie de reconnaissance du locuteur conçue par le CRIM, qui identifie celui ou celle qui prend la parole à tel ou tel moment, se range toujours parmi les meilleures lors des évaluations internationales. On l'utilise désormais partout dans le monde.

Société Radio-Canada

La Société Radio-Canada (SRC) diffuse des émissions destinées aux Autochtones ou conçues par eux. Elle fournit des services dans huit langues autochtones/inuits et conserve une mine d'enregistrements sonores dans ces langues.

Centre Pirurvik

Le Centre Pirurvik (en anglais seulement) est un centre d'excellence spécialisé dans la langue, la culture et le bien-être inuits. Fondé à l'automne 2003, il a son siège à Iqaluit, capitale du Nunavut. Le Centre sélectionne les enregistrements sonores dans la langue d'origine en fonction de la richesse du vocabulaire, en s'assurant que le locuteur ne « pense pas en anglais », puis les retranscrit.

Objectifs

  • Écouter et retranscrire fidèlement les enregistrements en langue autochtone (fichiers audio); utiliser les données pour segmenter l'enregistrement et l'annoter plus facilement
  • Concevoir un outil d'indexation pour retrouver des mots-clés dans le contenu

Produits livrables

  • Les outils d'indexation du contenu audio créés dans le cadre du projet seront offerts par l'entremise de deux plateformes ouvertes reconnues : VESTA et ELAN (en anglais seulement).

Activités

Source du matériel audio

La SRC met les enregistrements en cri de l'est de la Baie-James à la disposition du CRIM pour qu'il développe les outils de segmentation et d'analyse avec lesquels on indexera les fichiers audio en langue autochtone. Ainsi, la SRC a remis au-delà de 1 343 heures d'émissions radiophoniques diffusées par CBC North entre janvier 2015 et décembre 2016. Les 1 312 fichiers contiennent des dialogues et de la musique de qualité studio ou téléphonique. Ils seront indispensables à la réussite du projet.

Le Centre Pirurvik sélectionne les enregistrements en inuktut pur selon la richesse du vocabulaire, en s'assurant que le locuteur ne « pense pas en anglais » quand il parle, puis les retranscrit. Le CNRC et le CRIM utiliseront les transcriptions en inuktut pour créer les outils de reconnaissance de la parole avec lesquels on pourra chercher du texte dans d'autres enregistrements en inuktut. De cette façon, les personnes qui parlent inuktut auront accès à du matériel audiovisuel qu'ils pourront consulter, dans leur langue.

Segmentation de la parole pour une annotation plus facile des données

Le CRIM met au point des outils simples qui segmentent la parole quand elle est enregistrée.

""

Figure 1. Segmentation automatique dans le logiciel d'annotation linguistique ELAC

  • La détection d'une activité vocale sépare les fichiers en sections parlées et non parlées. Le CRIM a mis au point puis testé un détecteur s'appuyant sur un réseau de neurones profond qu'il a formé grâce à de très nombreuses séquences parlées dans diverses langues (figure 1).
  • Le repérage du locuteur détermine qui parle à partir d'un court échantillon de sa voix (recherche par l'exemple). Le CRIM a développé un système qui recourt aux i-vecteurs et a entrepris de le perfectionner par apprentissage profond.
  • Le CRIM a conçu un outil d'étiquetage linguistique qui distingue l'inuktitut et le cri de l'Est parmi 32 langues à partir d'un échantillon de cinq secondes.

Ces outils peuvent s'ajouter aux logiciels que les linguistes connaissent bien et devraient faciliter l'annotation des enregistrements dans diverses langues.

Outil d'indexation pour la recherche de mots-clés dans le contenu

Parallèlement, le CRIM envisage de bâtir des systèmes au moyen desquels on pourra chercher des expressions ou des termes précis dans les enregistrements de quelques langues autochtones. Ces systèmes n'autoriseront toutefois pas une reconnaissance totale de la parole et ne permettront pas une transcription impeccable de tout ce qui se dit dans un enregistrement. On s'en servira plutôt pour chercher des mots-clés en vue et retrouver un terme ou un sujet précis en parcourant rapidement de longs enregistrements. Dans cette optique, les principaux éléments servant à reconnaître la parole — ceux qui forgent les mots, les phonèmes et les sons — devront être adaptés et il faudra en établir les limites dans leur application aux langues autochtones.

  • Représentation par des mots. Les représentations de cette nature ne fonctionnent pas en inuktitut. En anglais, un vocabulaire de 20 000 mots suffit à la tâche : seuls cinq pour cent des mots dans un nouveau texte ne seront pas reconnus. Il en va tout autrement de l'inuktitut. La collection actuelle de documents constitue un vocabulaire de 1,3 million de mots. Pourtant, dans un nouveau texte, soixante pour cent des mots ne seront pas reconnus, car l'inuktitut est une langue agglutinante. Le CRIM crée de nouvelles approches pour modéliser la richesse du vocabulaire qui caractérise maintes langues autochtones canadiennes sans qu'on doive faire appel à un nombre de mots déterminé (figure 2).

    ""

    Figure 2. Volume du vocabulaire inuktitut et proportion du texte reconnu à partir de ce vocabulaire. Beaucoup de mots ne sont pas reconnus malgré la richesse du vocabulaire.

  • Transcription phonétique du cri de l'Est. Partant d'à peine quatre heures de transcriptions, le CRIM a créé un système qui retranscrit phonétiquement le cri de l'Est de façon automatique. La proportion d'erreurs est inférieure à dix pour cent.

  • Emplacement exact du mot. Le CRIM a montré qu'en le formant avec un contenu anglais abondant, l'outil reconnaissant la parole parvient à situer l'emplacement exact d'un mot dans l'enregistrement, même en inuktitut ou en cri. On pourra donc créer des livres audio qui synchroniseront le texte et s'en servir à des fins pédagogiques ou pour l'apprentissage de la langue (figure 3).

    Figure 3. Concordance du texte inuktitut et de l'enregistrement sonore pour faciliter la lecture accompagnée et diverses applications pédagogiques

Diffusion des outils d'indexation audio à la collectivité, aux linguistes et aux chercheurs

Les outils élaborés dans le cadre du projet seront offerts au moyen des deux plateformes que voici, de manière à répondre aux besoins des Autochtones, des linguistes et des chercheurs.

  • VESTA, une plateforme de travail collaboratif, mise en point par le CRIM en partie grâce au financement du programme CANARIE pour les logiciels de recherche, qui donne accès à des services de traitement avancés de contenus multimédia hébergés sur des serveurs du réseau CANARIE.
  • ELAN, un logiciel libre du Max Planck Institute servant à l'annotation de corpus oraux, largement utilisé en linguistique et en documentation des langues, efficace pour l'annotation manuelle sur un ordinateur individuel.

Le CRIM a conçu un module d'extension pour ELAN, facile à télécharger, qui donne accès à l'ensemble des services dispensés sur la plateforme VESTA. Ainsi, de nombreux partenaires pourront se servir des outils de VESTA dans l'interface ELAN, qui leur est familière, pour collaborer à la création d'un corpus.
De concert avec les spécialistes en langues autochtones, les membres de l'équipe ont ensuite déterminé quels outils ils devaient prioriser pour faciliter la recherche et les ont ajoutés à VESTA. Au nombre des technologies disponibles pour segmenter la parole, mentionnons les suivantes.

  • La détection d'activité vocale (« voice activity detection ») sépare les segments parlés des segments ne contenant que du bruit ou de la musique, à l'aide de réseaux neuronaux profonds adaptés à une diversité de langues;
  • La segmentation en locuteurs (« speaker diarisation ») distingue les intervenants dans une conversation, peu importe la langue;
  • La séparation multicanale est destinée aux entrevues linguistiques où plusieurs locuteurs portent chacun un microphone rapproché;
  • La recherche de langue (« language retrieval ») permet de retrouver les segments d'un enregistrement dits dans une langue donnée, parmi 32 langues incluant le Cri de l'Est et l'Inuktitut;
  • La recherche de locuteur (« speaker retrieval ») permet de retrouver les segments d'un enregistrement où un locuteur donné parle, peu importe sa langue.

À mesure que progresse le projet, l'équipe espère enrichir le module d'extension VESTA-ELAN avec d'autres services comme la concordance du texte et de la parole et la recherche de mots-clés, ce qui débouchera éventuellement sur le développement d'applications numériques pour la parole.

Notre équipe de projet

Gilles Boulianne

Gilles Boulianne

Chercheur sénior, Traitement automatique de la parole
Centre de recherche informatique de Montréal

Vishwa Gupta

Vishwa Gupta

Chercheur sénior, Traitement automatique de la parole
Centre de recherche informatique de Montréal

 

Contactez-nous

Antonia Leney-Granger, agente de communications
Centre de recherche informatique de Montréal

Téléphone : 514-840-1234
Courriel : medias@crim.ca

Roland Kuhn, chef du projet
Technologies pour les langues autochtones

Téléphone : 613-993-0821
Courriel : Roland.Kuhn@nrc-cnrc.gc.ca
LinkedIn: Roland Kuhn

Liens connexes