Cet article est également disponible en: English
Nouveau bouleversement dans le secteur de l’IA générative. NVIDIA se serait adonnée à des pratiques assez peu éthiques pour entraîner ses outils, en téléchargement massivement et sans autorisation des vidéos récupérées sur Youtube et Netflix, entre autres. Des faits qui contrediraient l’approche éthique affichée par l’entreprise. Une class action est lancée en réaction à ces révélations.
Des données téléchargées en masse
Tout est parti de documents internes de NVIDIA obtenus par 404 Media. Ils portent en particulier sur les données d’entraînement de Cosmos, un modèle d’IA de NVIDIA qui n’est pas disponible publiquement. Selon les messages Slack présentés par 404 Media, des employés de NVIDIA évoquent le téléchargement de quantités astronomiques de vidéos depuis des sources comme Youtube et Netflix, avec usages de machines virtuelles disposant d’IPs renouvelées, afin d’éviter un blocage par Youtube. Toujours selon les informations de 404 Media, le volume des vidéos serait particulièrement massif, de l’ordre de « 80 ans de vidéos par jour ».
Enfin, 404 Media souligne que selon ces fuites, cette démarche de téléchargement de dizaines de millions de vidéos aurait été validée au plus haut niveau de la hiérarchie de l’entreprise.
En parallèle, Google et Netflix confirment à 404 Media que ce genre de démarche est totalement contraire à leurs conditions d’utilisation. Et toujours selon 404 Media, NVIDIA aurait aussi pioché dans HD-VG-130M, une base de données dont la licence ne permet pas d’usage commercial.
Des révélations qui contrastent avec la politique affichée par NVIDIA. Le géant avance publiquement que « l’IA se doit de respecter les réglementations en matière de confidentialité et de protection des données », qu’elle doit « fonctionner de manière transparente », afin d’aboutir à une « IA digne de confiance ».
NVIDIA affirme respecter la loi
Face à ces informations, NVIDIA s’est exprimé auprès de 404 Media, et réfute toute pratique illicite :
Nous respectons les droits de tous les créateurs de contenu et sommes convaincus que nous travaillons en pleine conformité avec la lettre et l’esprit de la loi sur le copyright. […] Le droit d’auteur protège les expressions particulières, mais pas les faits, les idées, les données ou les informations. Chacun est libre d’apprendre des faits, des idées, des données ou des informations provenant d’une autre source et de les utiliser pour créer ses propres expressions. Le fair use protège également la possibilité d’utiliser une œuvre à des fins transformatrices, telles que la formation de modèles.
Autrement dit, NVIDIA respecterait entièrement la loi. Reste que l’on peut s’interroger sur l’aspect éthique de la démarche, alors que lorsque NVIDIA parle de ses partenariats avec Shutterstock par exemple (nous en parlions ici), l’entreprise souligne l’aspect éthique (consentement des créatifs dont les données sont utilisées).
Une class action lancée par un youtubeur
Ces révélations ont incité le vidéaste David Millette à porter plainte et à lancer une class action contre NVIDIA, permettant ainsi à d’autres personnes concernées à s’associer à la plainte. Contrairement à ce que l’on pourrait attendre, la plainte ne porte pas sur le copyright mais sur la concurrence déloyale. Pour Millette, NVIDIA s’est enrichie de façon « injuste » en utilisant les données créées par les youtubeurs.
Reste donc à voir si d’autres vidéastes rejoindront la plainte, et quelles seront les suites judiciaires.
Adobe, NVIDIA : paroles et actes
Ces rebondissements font évidemment penser à Adobe. Depuis l’annonce de son IA générative Firefly, l’entreprise insiste sur l’aspect éthique de son IA, entraînée sur des images Adobe Stock, avec accord des artistes. Mais des révélations de Bloomberg ont montré que ces images d’entraînement contiennent notamment des images issues de l’IA générative Midjourney, elle-même entraînée entre autres sur des images téléchargées en masse sur internet, sans autorisation des artistes.
Dans les deux cas, on ne peut que regretter le manque de transparence des entreprises, qui tranche avec leur communication.
En parallèle, on rappellera que certaines entités adoptent des modèles radicalement différents, afin d’éviter tout problème légal ou éthique. Golaem, récemment rachetée par Autodesk, a eu une politique intéressante lors de ses développements récents : l’entraînement est fait du côté du client, sur les données de ce dernier. Golaem n’utilisait donc pas de données non libres sans autorisation.
3DVF suivra évidemment avec attention les développements de la class action visant NVIDIA. N’hésitez donc pas à nous suivre sur les réseaux sociaux: Facebook, X/Twitter, Instagram, LinkedIn, Youtube.