La fuga di notizie di Nvidia rivela che hanno raschiato “80 anni” di video di YouTube al giorno per addestrare l’intelligenza artificiale

Secondo chat interne di Slack, e-mail e documenti trapelati, Nvidia ha utilizzato video da YouTube, Netflix e altre fonti per addestrare i suoi prodotti di intelligenza artificiale.

L’indagine di 404 Media ha scoperto una grande fuga di notizie da Nvidia. Secondo la pubblicazione, Nvidia ha utilizzato video da varie fonti per il suo generatore di mondi Omniverse 3D, sistemi di auto a guida autonoma e prodotti “digital human” tramite scraping.

I dipendenti responsabili dello scraping dei video hanno spesso sollevato preoccupazioni circa l’etica e la legalità, ma sono stati messi a tacere dai loro manager. Questi manager hanno anche affermato di aver ottenuto il permesso dai massimi livelli dell’azienda per utilizzare i contenuti.

La maggior parte dei video è stata ottenuta da YouTube, con ulteriore materiale preso da piattaforme come Netflix e GitHub.

Durante una conversazione su Slack, un dipendente di Nvidia ha proposto l’idea di scraping di film. La logica alla base di questo suggerimento era che “i film possono fornire dati di alta qualità con coerenza 3D simile a quella dei videogiochi e contenuti di fantasia”.

Ming-Yu Liu, vicepresidente della ricerca presso Nvidia, ha risposto: “Abbiamo bisogno di un volontario che scarichi tutti i film”.

Screenshot della chat interna di Slack di Nvidia. — 404 Media

Secondo le e-mail ottenute da 404 Media, i project manager stanno valutando l’utilizzo di 20-30 macchine virtuali su Amazon Web Services per scaricare 80 anni di video al giorno.

“In un’e-mail inviata a maggio, Liu ha affermato che siamo in procinto di completare la pipeline di dati v1 e di garantire le risorse di elaborazione necessarie per stabilire una fabbrica di dati video in grado di produrre una resa giornaliera di dati di formazione equivalente a una vita di esperienza visiva umana”.

Nei canali Slack, i dipendenti stavano anche riflettendo su quali video dei canali YouTube raccogliere per la formazione AI. Uno scienziato ricercatore ha condiviso più link a canali YouTube in un canale Slack e ha aggiunto: “Nel caso in cui stiate ancora cercando suggerimenti per i canali YouTube da scaricare, eccone alcuni che potrebbero valere la pena di considerare”.

Lo scienziato ha notato che i link provenivano da una varietà di canali YouTube, tra cui marchi noti come Expedia e il canale ufficiale di Architectural Digest, nonché creatori di contenuti individuali come Marques Brownlee (MKBHD). Lo scienziato ha anche fatto un commento sull’alta qualità delle recensioni di prodotti tecnologici di MKBHD accanto al link al suo video di YouTube.

Nvidia ha risposto alle richieste di informazioni di 404 Media in merito alle considerazioni legali ed etiche relative all’utilizzo di materiale protetto da copyright per la formazione sull’intelligenza artificiale, affermando che i propri metodi sono pienamente conformi sia alla lettera che all’intento della legge sul copyright.

A luglio, Nvidia è stata anche accusata di aver utilizzato dati di una società terza per addestrare i suoi modelli di intelligenza artificiale. La suddetta società terza aveva acquisito i dati tramite lo scraping non autorizzato di video di YouTube da parte di creatori di contenuti.