Витік Nvidia показує, що вони збирали відео на YouTube «на 80 років» на день, щоб навчити ШІ

Згідно з витоком внутрішніх чатів Slack, електронних листів і документів, Nvidia використовувала відео з YouTube, Netflix та інших джерел для навчання своїх продуктів ШІ.

Розслідування, проведене 404 Media, виявило великий витік інформації від Nvidia. Згідно з публікацією, Nvidia використовувала відео з різних джерел для свого генератора 3D-світу Omniverse, систем для самокерованих автомобілів і продуктів «цифрової людини» шляхом скрапінгу.

Співробітники, відповідальні за копіювання відео, часто висловлювали занепокоєння щодо етики та законності, але їхні менеджери мовчали. Ці менеджери також стверджували, що отримали дозвіл від найвищого керівництва компанії на використання вмісту.

Більшість відео було отримано з YouTube, а додаткові матеріали були взяті з таких платформ, як Netflix і GitHub.

Під час розмови в Slack один із співробітників Nvidia запропонував ідею скачування фільмів. Обґрунтування цієї пропозиції полягало в тому, що «фільми можуть надавати високоякісні дані з ігровою 3D-послідовністю та вигаданим вмістом».

Мін-Ю Лю, віце-президент із досліджень Nvidia, відповів: «Нам потрібен волонтер, щоб завантажити всі фільми».

Знімок екрана внутрішнього чату Nvidia.
404 ЗМІ

Відповідно до електронних листів, отриманих 404 Media, керівники проектів розглядають можливість використання від 20 до 30 віртуальних машин на Amazon Web Services для завантаження відеороликів на 80 років на день.

«У електронному листі, надісланому в травні, Лю заявив, що ми завершуємо конвеєр даних версії 1 і забезпечуємо необхідні обчислювальні ресурси для створення фабрики відеоданих, здатної виробляти щоденну продуктивність навчальних даних, еквівалентну тривалості людського візуального зору. досвід».

На каналах Slack співробітники також обговорювали, відео з яких каналів YouTube зібрати для навчання ШІ. Вчений-дослідник поділився кількома посиланнями на канали YouTube у каналі Slack і додав: «Якщо ви все ще шукаєте пропозиції щодо каналів YouTube для завантаження, ось кілька, які варто розглянути».

Знімок екрана внутрішнього чату Nvidia.
404 ЗМІ

Вчений зазначив, що посилання були з різних каналів YouTube, включаючи відомі бренди, такі як Expedia та офіційний канал Architectural Digest, а також окремі творці контенту, такі як Marques Brownlee (MKBHD). Вчений також прокоментував високу якість оглядів технічної продукції MKBHD поруч із посиланням на своє відео на YouTube.

Nvidia відповіла на запити 404 Media щодо юридичних та етичних міркувань використання матеріалів, захищених авторським правом, для навчання штучному інтелекту, заявивши, що їхні методи повністю відповідають як букві, так і меті закону про авторське право.

У липні Nvidia також стверджували, що використовувала дані від сторонньої компанії для навчання своїх моделей ШІ. Зазначена стороння компанія отримала дані шляхом несанкціонованого збирання відео YouTube від творців контенту.

Залишити відповідь

Ваша e-mail адреса не оприлюднюватиметься. Обов’язкові поля позначені *