Logiciel YiSi — Outil d’évaluation de la traduction automatique par analyse sémantique

 

Aperçu

YiSiNote de bas de page 1 est un logiciel ouvert qui évalue l'exactitude sémantique de phrases produites par des outils de traduction automatique. Pour cela, le logiciel utilise des corpus de plongements lexicaux pour évaluer la relation sémantique entre mots, et attribue une cote d'exactitude de 0 à 100 à chaque phrase traduite. Ce logiciel a été développé par le Centre de recherche en technologies numériques du Conseil national de recherches du Canada..

Utilisateurs cibles

  • Développeurs de systèmes de traduction automatique
  • Spécialistes en linguistique computationnelle

Avantages pour les utilisateurs

  • Le logiciel YiSi peut mettre en évidence des problèmes de traduction automatique; il aide ainsi les développeurs à identifier les éléments qui doivent d'être améliorés.
  • Il y a une forte corrélation avec les cotes attribuées par de véritables traducteurs à l'exactitude des phrases traduites, ce qui aide les développeurs à comparer et à évaluer les résultats de leurs systèmes de traduction automatique.

Exigences système

  • YiSi a été développé pour l'environnement Linux.
  • Le logiciel est écrit en langage C++ et nécessite une version de g++ compatible avec C++11; nous utilisons la version GCC 4.9.3.
  • YiSi nécessite le programme Make; nous utilisons la version GNU Make 3.81.
  • YiSi nécessite le programme Bash; nous utilisons la versionGNU Bash 4.1.2.

Description technique

YiSi est une famille de métriques d'évaluation sémantique de la traduction automatique (TA), articulée autour d'une architecture flexible permettant l'évaluation de traductions automatiques dans plusieurs langues ayant des quantités variables de ressources d'apprentissage. Inspiré du logiciel MEANT 2.0 (Lo, 2017), YiSi-1 évalue la similarité entre une traduction humaine et une sortie de traduction automatique en combinant des similarités pondérées de sémantique lexicale distributionnelle, et, de manière optionnelle, des structures sémantiques superficielles. YiSi-0 est une version épurée qui n'utilise aucune ressource et utilise la plus longue sous-chaîne commune au lieu de la sémantique distributionnelle pour évaluer la similarité lexicale entre traduction humaine et sortie de TA. Par contraste, YiSi-2 est une version bilingue qui ne nécessite pas de traduction de référence, mais repose sur des plongements lexicaux bilingues pour évaluer la similarité sémantique lexicale translinguistique entre la phrase source et une traduction automatique.

Lors d'évaluations internationales organisées à la troisième conférence sur la traduction automatique en 2018 (« WMT2018 », Ma et coll., 2018), YiSi-1 a obtenu la plus haute corrélation moyenne avec le jugement humain au niveau des systèmes, ainsi que la plus haute corrélation médiane au niveau des segments, pour toutes les paires de langues. YiSi-1 a aussi brillé sur la tâche de filtrage de corpus parallèles à la conférence WMT2018, et YiSi-2 a démontré une précision comparable pour la même tâche.

YiSi-0 est livré prêt pour évaluer toutes les langues. YiSi-1 a besoin d'un corpus monolingue dans la langue cible pour entraîner le modèle de sémantique lexicale distributionnelle. YiSi-1_srl, est conçu pour les langues riches en ressources linguistiques, pour lesquelles un outil d'étiquetage sémantique pour la langue cible est disponible. YiSi-2 nécessite un corpus de plongements lexicaux bilingues et YiSi 2_srl, un outil d'étiquetage sémantique automatique pour les langues source et cible.

Prix

Le logiciel YiSi est offert gratuitement à des fins de recherche et commerciales. Communiquez avec nous pour de plus amples renseignements.

Publications

Télécharger YiSi et ses corpus de plongements lexicaux

Code principal utilisé pour évaluer les unités syntaxiques :

Corpus de plongements lexicaux actuellement supportés :

Corpus de plongements lexicaux actuellement supportés – accessibles dans le Dépôt numérique du CNRC

  • Allemand
  • Anglais
  • Chinois, segmenté par l'outil Stanford
  • Espagnol
  • Estonien
  • Finlandais
  • Français
  • Hindi
  • Letton
  • Polonais
  • Roumain
  • Russe
  • Tchèque
  • Turc

Contactez-nous

Renseignements techniques
Jackie Lo, agente de recherches
Téléphone : 613-993-0620
Courriel : Jackie.Lo@nrc-cnrc.gc.ca

Renseignements aux entreprises
Pierre Charron, chef, Relations avec les clients
Téléphone : 613-990-0336
Courriel : Pierre.Charron@nrc-cnrc.gc.ca