Une fuite de Nvidia révèle qu’ils ont récupéré « 80 ans » de vidéos YouTube par jour pour former l’IA

Selon des fuites de discussions internes, d’e-mails et de documents Slack, Nvidia a utilisé des vidéos provenant de YouTube, Netflix et d’autres sources pour former ses produits d’IA.

L’enquête menée par 404 Media a révélé une fuite importante de Nvidia. Selon la publication, Nvidia aurait utilisé des vidéos de diverses sources pour son générateur de monde 3D Omniverse, ses systèmes de conduite autonome et ses produits « d’humain numérique » par le biais du scraping.

Les employés responsables de la récupération des vidéos ont souvent fait part de leurs inquiétudes quant à l’éthique et à la légalité de cette pratique, mais leurs responsables les ont fait taire. Ces derniers ont également affirmé avoir obtenu l’autorisation des plus hautes sphères de l’entreprise pour utiliser le contenu.

La majorité des vidéos ont été obtenues à partir de YouTube, avec du matériel supplémentaire provenant de plateformes telles que Netflix et GitHub.

Lors d’une conversation sur Slack, un employé de Nvidia a proposé l’idée de récupérer des films. La raison derrière cette suggestion était que « les films peuvent fournir des données de haute qualité avec une cohérence 3D et un contenu fictif de type jeu vidéo ».

Ming-Yu Liu, vice-président de la recherche chez Nvidia, a répondu : « Nous avons besoin d’un volontaire pour télécharger tous les films. »

Capture d'écran du chat Slack interne de Nvidia. — 404 Médias

Selon des courriels obtenus par 404 Media, les chefs de projet envisagent d’utiliser 20 à 30 machines virtuelles sur Amazon Web Services pour télécharger l’équivalent de 80 ans de vidéos par jour.

« Dans un e-mail envoyé en mai, Liu a déclaré que nous sommes en train de finaliser le pipeline de données v1 et de sécuriser les ressources informatiques nécessaires pour établir une usine de données vidéo capable de produire un rendement quotidien de données de formation équivalent à une vie d’expérience visuelle humaine. »

Dans les canaux Slack, les employés réfléchissaient également aux vidéos des chaînes YouTube à rassembler pour la formation de l’IA. Un chercheur scientifique a partagé plusieurs liens vers des chaînes YouTube dans un canal Slack et a ajouté : « Si vous cherchez encore des suggestions de chaînes YouTube à télécharger, en voici quelques-unes qui pourraient être intéressantes à prendre en considération. »

Le scientifique a noté que les liens provenaient de plusieurs chaînes YouTube, notamment de marques connues comme Expedia et la chaîne officielle d’Architectural Digest, ainsi que de créateurs de contenu individuels comme Marques Brownlee (MKBHD). Le scientifique a également fait un commentaire sur la haute qualité des critiques de produits technologiques de MKBHD à côté du lien vers sa vidéo YouTube.

Nvidia a répondu aux demandes de renseignements de 404 Media concernant les considérations juridiques et éthiques liées à l’utilisation de matériel protégé par le droit d’auteur pour la formation de l’IA en déclarant que leurs méthodes sont entièrement conformes à la lettre et à l’intention de la loi sur le droit d’auteur.

En juillet, Nvidia a également été accusée d’avoir utilisé des données d’une société tierce pour former ses modèles d’IA. La société tierce en question avait acquis les données par le biais du scraping non autorisé de vidéos YouTube auprès de créateurs de contenu.