Langue régionale. Le breton à la conquête de Google Traduction

Publié : 7 février 2024 à 21h33 par Yann LAUNAY

Breizh Datathon Equipe Bretagne numérique & Mélanie Jouitteau
David Le Meur, David Lesvenan, Gueltaz Duval-Guenneoc, de Bretagne numérique, avec Mélanie Jouitteau
Crédit : Yann Launay

Le fonds de dotation .BZH - Bretagne numérique a lancé cette semaine (6 Février) un Breizh Datathon dans le cadre de son projet Translate, qui vise à intégrer le breton dans les traducteurs en ligne les plus courants.

Si vous cherchez la langue bretonne sur des traducteurs automatiques comme Google Translate, vous ne la trouverez pas. Mais cette lacune sera peut-être bientôt comblée : c'est l'objectif de l'association Bretagne numérique. Pour David Lesvenan, président de Bretagne numérique, intégrer le breton aux grands traducteurs automatiques comme Google Translate dépasse largement le seul intérêt utilitaire : "Aujourd'hui, nous visons à renforcer le soft power breton. Quand vous utilisez un outil comme Google Translate, vous faites défiler le nombre de langues qui apparaissent. Voir demain le breton sur cette liste c'est aussi donner à la Bretagne, à sa langue, une place au niveau mondial."

Breizh Datathon

"On a besoin de beaucoup de données brutes, en son notamment..."

Pour intégrer la langue bretonne dans les outils automatiques comme Google Traduction, ce n'est pas une question d'argent, ce n'est pas non plus une question d'hostilité des GAFAM envers les "petites langues". C'est en fait une question de données, pour nourrir les intelligences artificielles. Pourtant du texte ou des chansons en breton existent déjà, sur le net.

Alors que manque-t-il exactement, pour intégrer Google Translate ? "On a besoin de données brutes, répond Mélanie Jouitteau, chercheuse au CNRS en sciences du langage, cela veut dire du texte brut, comme Wikipédia. Si vous avez en tête de faire un nouvel article de Wikipédia, ce serait vraiment le moment... et en breton, s'il vous plaît... Au niveau de la reconnaissance vocale, on a besoin de données brutes en son. On a besoin de beaucoup de données brutes. Si vous voulez une intelligence artificielle qui produit du texte, il faut d'abord la noyer dans le texte. Après, notre handicap, sur les petites langues en général, est de ne pas avoir les masses de données que l'anglais peut avoir sur internet, par exemple. Mais il y a des manières malines, de compenser ce handicap : si c'est de la voix qui parle en breton, on peut transcrire, lui donner le texte écrit de cette voix-là, et ça accélère énormément son apprentissage."

Breizh Datathon Mélanie Jouitteau 1

Un Breizh Datathon est en ligne !

Pour nourrir les intelligences artificielles de Google, Meta et les autres, un "Breizh Datathon" est organisé en ligne jusqu'à la fin du mois de février. Chacun peut apporter sa contribution, sur le site datathon.bzh. Une occasion à ne pas manquer, pour Mélanie Jouitteau : la chercheuse estime qu'en matière de langues régionales, comme de façon générale, il ne faut pas tourner le dos à l'intelligence artificielle, mais plutôt monter dans le train en marche : "je pense que nos vies vont changer, avec l'intelligence artificielle, on est au début d'une révolution profonde. Ce n'est pas une mode, c'est exactement ce qu'on a vécu avec l'intégration des portables. On n'a pas voté pour ça, c'est juste arrivé  Je pense que quelque chose d'assez similaire, et plus rapide, va se passer avec les outils d'intelligence artificielle, et je pense que les langues qui ne seront pas intégrées à l'outil vont disparaître à très court terme. Il y a un danger, il faut qu'on fasse quelque chose."

Breizh Datathon Mélanie Jouitteau 2

Le "Breizh Datathon" est ouvert sur internet jusqu'au 27 février, sur le site datathon.bzh. Il n'est pas nécessaire de parler breton pour y participer. Il vise tout particulièrement à établir des séries de questions, en lien avec des images, pour tester les intelligences artificielles. Une journée Breizh Datathon en présentiel est aussi prévue le 17 février à Quimper, à la Cantine, sur inscription.