Nvidia-Leak enthüllt, dass sie täglich „80 Jahre“ an YouTube-Videos zusammengetragen haben, um KI zu trainieren

Durchgesickerten internen Slack-Chats, E-Mails und Dokumenten zufolge nutzte Nvidia Videos von YouTube, Netflix und anderen Quellen, um seine KI-Produkte zu trainieren.

Die Untersuchung von 404 Media hat ein großes Leck bei Nvidia aufgedeckt. Der Veröffentlichung zufolge hat Nvidia durch Scraping Videos aus verschiedenen Quellen für seinen Omniverse 3D-Weltgenerator, selbstfahrende Autosysteme und „digitale menschliche“ Produkte verwendet.

Die für das Scraping der Videos verantwortlichen Mitarbeiter äußerten häufig Bedenken hinsichtlich der Ethik und Rechtmäßigkeit der Inhalte, wurden jedoch von ihren Vorgesetzten zum Schweigen gebracht. Diese Manager behaupteten außerdem, sie hätten von den höchsten Ebenen des Unternehmens die Erlaubnis zur Verwendung der Inhalte eingeholt.

Die meisten Videos stammen von YouTube, zusätzliches Material wurde von Plattformen wie Netflix und GitHub entnommen.

Während einer Slack-Konversation schlug ein Mitarbeiter von Nvidia die Idee vor, Filme zu scrapen. Die Begründung für diesen Vorschlag lautete, dass „Filme qualitativ hochwertige Daten mit spieleähnlicher 3D-Konsistenz und fiktionalen Inhalten liefern können.“

Ming-Yu Liu, Forschungsvizepräsident bei Nvidia, antwortete: „Wir brauchen einen Freiwilligen, der alle Filme herunterlädt.“

Screenshot des internen Slack-Chats von Nvidia. — 404 Medien

Aus E-Mails, die 404 Media vorliegen, geht hervor, dass die Projektmanager 20 bis 30 virtuelle Maschinen auf Amazon Web Services einsetzen möchten, um täglich Videos im Umfang von 80 Jahren herunterzuladen.

„In einer im Mai verschickten E-Mail erklärte Liu, dass wir dabei seien, die Datenpipeline v1 fertigzustellen und die erforderlichen Rechenressourcen zu sichern, um eine Videodatenfabrik aufzubauen, die in der Lage ist, täglich Trainingsdaten zu produzieren, die der visuellen Erfahrung eines ganzen Menschenlebens entsprechen.“

In den Slack-Kanälen überlegten die Mitarbeiter auch, welche Videos von YouTube-Kanälen sie für das KI-Training sammeln sollten. Ein Forscher teilte in einem Slack-Kanal mehrere Links zu YouTube-Kanälen und fügte hinzu: „Falls Sie noch nach Vorschlägen für YouTube-Kanäle zum Herunterladen suchen, hier sind einige, die eine Überlegung wert sein könnten.“

Der Wissenschaftler stellte fest, dass die Links von einer Vielzahl von YouTube-Kanälen stammten, darunter bekannte Marken wie Expedia und der offizielle Kanal von Architectural Digest sowie einzelne Inhaltsersteller wie Marques Brownlee (MKBHD). Der Wissenschaftler kommentierte neben dem Link zu seinem YouTube-Video auch die hohe Qualität der technischen Produktbewertungen von MKBHD.

Auf Anfragen von 404 Media zu den rechtlichen und ethischen Aspekten der Verwendung urheberrechtlich geschützten Materials für das KI-Training antwortete Nvidia mit der Aussage, dass ihre Methoden sowohl dem Wortlaut als auch der Absicht des Urheberrechts vollständig entsprechen.

Im Juli wurde Nvidia außerdem vorgeworfen, Daten eines Drittunternehmens zum Trainieren seiner KI-Modelle verwendet zu haben. Das besagte Drittunternehmen hatte die Daten durch das unbefugte Scraping von YouTube-Videos von Inhaltserstellern erworben.