Una filtración de Nvidia revela que extrajeron “80 años” de vídeos de YouTube al día para entrenar a la IA

Según chats, correos electrónicos y documentos internos filtrados de Slack, Nvidia utilizó videos de YouTube, Netflix y otras fuentes para entrenar sus productos de inteligencia artificial.

La investigación de 404 Media ha descubierto una importante filtración de Nvidia. Según la publicación, Nvidia ha estado utilizando vídeos de varias fuentes para su generador de mundos 3D Omniverse, sistemas de coches autónomos y productos de “humanos digitales” mediante scraping.

Los empleados responsables de extraer los vídeos expresaron con frecuencia sus dudas sobre la ética y la legalidad de la operación, pero sus superiores los silenciaron. Estos directivos también afirmaron haber obtenido permiso de los niveles más altos de la empresa para utilizar el contenido.

La mayoría de los videos se obtuvieron de YouTube, con material adicional tomado de plataformas como Netflix y GitHub.

Durante una conversación en Slack, un empleado de Nvidia propuso la idea de extraer datos de películas. El fundamento de esta sugerencia fue que “las películas pueden proporcionar datos de alta calidad con una consistencia 3D similar a la de los videojuegos y contenido ficticio”.

Ming-Yu Liu, vicepresidente de investigación de Nvidia, respondió: “Necesitamos un voluntario para descargar todas las películas”.

Captura de pantalla del chat interno de Slack de Nvidia. — 404 Medios

Según correos electrónicos obtenidos por 404 Media, los gerentes de proyectos están considerando usar de 20 a 30 máquinas virtuales en Amazon Web Services para descargar 80 años de videos por día.

“En un correo electrónico enviado en mayo, Liu afirmó que estamos en el proceso de completar la cadena de datos v1 y asegurar los recursos informáticos necesarios para establecer una fábrica de datos de video capaz de producir un rendimiento diario de datos de entrenamiento equivalente a toda una vida de experiencia visual humana”.

En los canales de Slack, los empleados también estaban deliberando sobre qué videos de los canales de YouTube recopilar para la capacitación en IA. Un científico investigador compartió varios enlaces a canales de YouTube en un canal de Slack y agregó: «En caso de que todavía esté buscando sugerencias de canales de YouTube para descargar, aquí hay algunos que podrían valer la pena considerar».

El científico señaló que los enlaces provenían de una variedad de canales de YouTube, incluidas marcas conocidas como Expedia y el canal oficial de Architectural Digest, así como creadores de contenido individuales como Marques Brownlee (MKBHD). El científico también hizo un comentario sobre la alta calidad de las reseñas de productos tecnológicos de MKBHD junto al enlace a su video de YouTube.

Nvidia respondió a las consultas de 404 Media sobre las consideraciones legales y éticas de utilizar material protegido por derechos de autor para el entrenamiento de IA afirmando que sus métodos cumplen plenamente tanto con la letra como con la intención de la ley de derechos de autor.

En julio, también se acusó a Nvidia de haber utilizado datos de una empresa externa para entrenar sus modelos de inteligencia artificial. La empresa en cuestión había obtenido los datos mediante la extracción no autorizada de vídeos de YouTube de los creadores de contenido.