Nvidia-lek onthult dat ze “80 jaar” aan YouTube-video’s per dag hebben verzameld om AI te trainen

Volgens gelekte interne Slack-chats, e-mails en documenten gebruikte Nvidia video’s van YouTube, Netflix en andere bronnen om zijn AI-producten te trainen.

Het onderzoek van 404 Media heeft een groot lek van Nvidia aan het licht gebracht. Volgens de publicatie heeft Nvidia video’s van verschillende bronnen gebruikt voor hun Omniverse 3D-wereldgenerator, zelfrijdende autosystemen en “digitale menselijke” producten door middel van scraping.

De werknemers die verantwoordelijk waren voor het scrapen van video’s uitten vaak hun zorgen over de ethiek en legaliteit ervan, maar werden door hun managers het zwijgen opgelegd. Deze managers beweerden ook toestemming te hebben gekregen van de hoogste niveaus van het bedrijf om de content te gebruiken.

Het merendeel van de video’s is afkomstig van YouTube, met aanvullend materiaal van platforms zoals Netflix en GitHub.

Tijdens een Slack-gesprek opperde een medewerker van Nvidia het idee om films te scrapen. De redenatie achter deze suggestie was dat “films hoogwaardige data kunnen leveren met game-achtige 3D-consistentie en fictieve content.”

Ming-Yu Liu, Vice President of Research bij Nvidia, antwoordde: “We hebben een vrijwilliger nodig om alle films te downloaden.”

Schermafbeelding van de interne Slack-chat van Nvidia. — 404 Media

Volgens e-mails die 404 Media heeft verkregen, overwegen projectmanagers om 20 tot 30 virtuele machines op Amazon Web Services te gebruiken om 80 jaar aan video’s per dag te downloaden.

“In een e-mail die in mei werd verzonden, verklaarde Liu dat we bezig zijn met het voltooien van de v1-datapijplijn en het veiligstellen van de vereiste computerbronnen om een videodatafabriek op te zetten die in staat is om dagelijks een opbrengst aan trainingsgegevens te produceren die gelijk is aan een leven lang menselijke visuele ervaring.”

In de Slack-kanalen overlegden werknemers ook over welke YouTube-kanalen video’s ze zouden verzamelen voor AI-training. Een onderzoeker deelde meerdere links naar YouTube-kanalen in een Slack-kanaal en voegde toe: “Als u nog steeds op zoek bent naar suggesties voor YouTube-kanalen om te downloaden, zijn hier een paar die het overwegen waard kunnen zijn.”

De wetenschapper merkte op dat de links afkomstig waren van verschillende YouTube-kanalen, waaronder bekende merken zoals Expedia en het officiële kanaal van Architectural Digest, evenals individuele contentmakers zoals Marques Brownlee (MKBHD). De wetenschapper maakte ook een opmerking over de hoge kwaliteit van MKBHD’s technische productrecensies naast de link naar zijn YouTube-video.

Nvidia reageerde op vragen van 404 Media over de juridische en ethische overwegingen bij het gebruik van auteursrechtelijk beschermd materiaal voor AI-training door te stellen dat hun methoden volledig voldoen aan zowel de letter als de bedoeling van de auteursrechtwetgeving.

Nvidia zou in juli ook data van een derde partij hebben gebruikt om zijn AI-modellen te trainen. Het genoemde derde partij bedrijf had de data verkregen door het ongeautoriseerd scrapen van YouTube-video’s van makers van content.