Une grande partie de ce qui est écrit sur Internet a été traduit par une IA, selon une étude

Une grande partie de ce qui est écrit sur Internet a été traduit par une IA, selon une étude
Une grande partie de ce qui est écrit sur Internet a été traduit par une IA, selon une étude

Une part « choquante » de ce qui est écrit sur Internet correspond à des contenus traduits automatiquement par des outils d’intelligence artificielle, selon une étude menée par des chercheurs américains. D’après cette étude, publiée jeudi dernier sur le  site spécialisé arXiv de l’université de Cornell, ces traductions sont de mauvaise qualité, particulièrement pour les langues dites « à faibles ressources », c’est-à-dire moins présentes sur Internet, par exemple celles parlées dans certains pays d’Afrique.

Plus de la moitié des phrases sur Internet sont traduites

Plusieurs scientifiques d’origines étrangères avaient constaté qu’une grande partie de ce qui est écrit sur Internet dans leur langue maternelle « semblait être générée par la traduction automatique« , raconte Mehak Dhaliwal, l’un des chercheurs, à  Vice.

Publicité

Afin de vérifier cette hypothèse, les chercheurs, qui travaillent pour le laboratoire de l’IA d’Amazon Web Services et pour l’université de Santa Barbara, ont analysé 6,4 milliards de phrases dans 90 langues et ont regardé si elles avaient été traduites. Dans 57,1% des cas, elles apparaissent sur Internet dans au moins trois langues.

Les langues moins courantes sur Internet mal traduites

C’est ensuite la qualité et le nombre de traductions pour chaque phrase qui les ont aiguillés vers des traductions automatiques. Les chercheurs se sont aperçus que les phrases dans les langues « à faibles ressources » avaient de nombreuses occurrences dans différentes langues. Une phrase qui avait été traduite en wolof par exemple avait aussi été traduite dans de nombreuses autres langues, ce qui laisse penser à l’utilisation d’une machine capable de générer plusieurs traductions automatiques. « Plus une phrase est traduite dans plusieurs langues, plus la qualité des traductions est faible, ce qui suggère une prévalence plus élevée de la traduction automatique« , indique l’étude.

Cette faible qualité s’explique par le fait que les IA sont entraînées sur la base de ce qui existe déjà sur Internet et plus il y a de contenus, comme en français ou en anglais, plus elles ont d’exemples à aspirer. Les langues dites « à faibles ressources » disposent de moins de données et les IA sont donc moins précises.

D’après l’étude, les mauvaises traductions générées par IA représentent « une large partie » des textes dans ces langues que l’on trouve sur Internet. L’une des explications avancées par les chercheurs se trouve du côté de la publicité. Ils ont en effet remarqué que les phrases traduites dans de nombreuses langues étaient généralement des phrases courtes, entre cinq et dix mots. Ils se sont rendus compte que « la grande majorité » provenaient d’articles qualifiés par l’équipe de recherche de « faible qualité, nécessitant peu ou pas d’expertise« . Il s’agissait le plus souvent d’articles écrits initialement en anglais et sur des sujets comme « être pris plus au sérieux au travail, faire attention à ses choix, six conseils pour les nouveaux propriétaires de bateau, décider d’être heureux, etc.« . Des articles généralement créés pour générer des revenus publicitaires.

Des risques d’erreurs à répétition

Par prolongement, ce qui inquiète les chercheurs est la formation d’un cercle vicieux : puisqu’une large partie de ce qui est aujourd’hui écrit sur Internet dans les langues « à faibles ressources » est mal traduit, les prochaines IA qui s’entraînent avec ces données ont plus de risque de générer à leur tour des erreurs, alertent les chercheurs.

voirenimages.net vous produit ce texte qui aborde le thème «  ». Le but de voirenimages.net étant de rassembler en ligne des données sur le sujet de puis les diffuser en essayant de répondre du mieux possible aux interrogations que tout le monde se pose. Cet article se veut reconstitué de la façon la plus correcte que possible. Si jamais vous projetez d’apporter quelques précisions autour du sujet «  », vous avez la possibilité de d’échanger avec notre rédaction. Dans les prochaines heures on rendra accessibles à tout le monde d’autres annonces autour du sujet «  ». Alors, consultez régulièrement notre blog.