Un groupe de start-ups françaises est en train de négocier un accès aux banques de données de l’INA et de la BNF. Une véritable mine d’or pour les grands modèles de langage.
La France est plus que jamais dans la course au développement des intelligences artificielles (IA). Si la pépite du secteur, Mistral AI, est valorisée à six milliards d’euros, la France souhaite voir émerger plus de champions de ce type.
Selon des informations de Politico, un groupe de startup françaises, dont Mistral AI, est en train de négocier un accès aux données publiques de l’Institut national de l’audiovisuel (INA) et de la Bibliothèque nationale de France (BNF).
Ces deux institutions seraient une véritable mine d’or pour les grands modèles de langage (LLM) dont sont dotés les IA. Pour rappel, ces dernières fonctionnent en analysant un vaste ensemble de données de manière automatique pour les comprendre et répondre aux requêtes textuelles des utilisateurs.
Trois startup phares se dégagent du groupe: Mistral AI mais aussi Giskard et Artefact. Toutes les trois ont remporté un récent appel à projets lancé par Bpifrance, comme le rappelle Politico.
Stratégie franco-française
« Nous nous entraînons sur le domaine public, mais des synergies peuvent être trouvées, comme on le voit avec Giskard, Artefact, la BNF », s’est félicité Arthur Mensch, le cofondateur de Mistral AI, lors de l’événement d’anniversaire d’Artefact.
« Il est important de pouvoir s’appuyer sur la connaissance française, de prendre en compte la culture française pour customiser nos modèles » souligne-t-il.
Une stratégie franco-française qui tend à se développer pour l’Europe, notamment avec l’IA Act. « La priorité et la nécessité vitale, c’est que nous puissions développer en Europe […] nos propres modèles […] qui seront empreints de notre vision de l’homme et du monde, qui sont forgés au feu des langues et des cultures de l’Union européenne », avait déclaré en novembre l’ancien ministre Jean-Noël Barrot.
Le partenariat avec la BNF et l’INA permettra d’éviter les contentieux liés au droit d’auteur. La BNF dispose en effet de millions de documents dans le domaine public, représentant des centaines de millions de pages numérisées. De quoi permettre à Mistral d’enrichir son modèle avec des œuvres littéraires classiques. Cependant, un responsable de la BNF prévient auprès de Politico: « C’est open source, mais pas open bar ».
Quant à l’INA, la situation est plus complexe, avec peu de contenus dans le domaine public parmi ses 25 millions d’heures d’archives audiovisuelles. Des clarifications juridiques avec les ayants droit seront nécessaires, même si aucun calendrier n’est fixé pour l’instant.
voirenimages.net vous produit ce texte qui aborde le thème « ». Le but de voirenimages.net étant de rassembler en ligne des données sur le sujet de puis les diffuser en essayant de répondre du mieux possible aux interrogations que tout le monde se pose. Cet article se veut reconstitué de la façon la plus correcte que possible. Si jamais vous projetez d’apporter quelques précisions autour du sujet « », vous avez la possibilité de d’échanger avec notre rédaction. Dans les prochaines heures on rendra accessibles à tout le monde d’autres annonces autour du sujet « ». Alors, consultez régulièrement notre blog.