Утечка информации от Nvidia показывает, что они ежедневно копировали видео YouTube общей длительностью «80 лет» для обучения ИИ

Согласно утечкам внутренних чатов Slack, электронных писем и документов, Nvidia использовала видеоролики с YouTube, Netflix и других источников для обучения своих продуктов на базе искусственного интеллекта.

Расследование 404 Media выявило крупную утечку из Nvidia. Согласно публикации, Nvidia использовала видео из различных источников для своего генератора мира Omniverse 3D, систем беспилотных автомобилей и продуктов «цифрового человека» путем скрапинга.

Сотрудники, ответственные за копирование видео, часто высказывали опасения по поводу его этичности и законности, но их менеджеры заставляли их молчать. Эти менеджеры также утверждали, что получили разрешение от высших уровней компании на использование контента.

Большинство видеороликов были получены с YouTube, а дополнительные материалы были взяты с таких платформ, как Netflix и GitHub.

Во время разговора в Slack сотрудник Nvidia предложил идею скрапинга фильмов. Обоснованием этого предложения было то, что «фильмы могут предоставлять высококачественные данные с игровой 3D-последовательностью и вымышленным контентом».

Минг-Ю Лю, вице-президент по исследованиям в Nvidia, ответил: «Нам нужен доброволец для загрузки всех фильмов».

Скриншот внутреннего чата Nvidia в Slack.
404 Медиа

Согласно электронным письмам, полученным 404 Media, менеджеры проектов рассматривают возможность использования 20–30 виртуальных машин на Amazon Web Services для ежедневной загрузки видеозаписей за 80 лет.

«В электронном письме, отправленном в мае, Лю заявил, что мы находимся в процессе завершения конвейера данных v1 и обеспечения необходимых вычислительных ресурсов для создания фабрики видеоданных, способной производить ежедневный объем обучающих данных, эквивалентный жизненному визуальному опыту человека».

В каналах Slack сотрудники также размышляли о том, какие видео каналов YouTube следует собрать для обучения ИИ. Исследователь поделился несколькими ссылками на каналы YouTube в канале Slack и добавил: «Если вы все еще ищете предложения по каналам YouTube для загрузки, вот несколько, которые стоит рассмотреть».

Скриншот внутреннего чата Nvidia в Slack.
404 Медиа

Ученый отметил, что ссылки были с различных каналов YouTube, включая известные бренды, такие как Expedia и официальный канал Architectural Digest, а также отдельных создателей контента, таких как Marques Brownlee (MKBHD). Ученый также прокомментировал высокое качество обзоров технологических продуктов MKBHD рядом со ссылкой на свое видео на YouTube.

Компания Nvidia ответила на запросы 404 Media относительно правовых и этических аспектов использования материалов, защищенных авторским правом, для обучения ИИ, заявив, что ее методы полностью соответствуют букве и смыслу закона об авторском праве.

В июле также утверждалось, что Nvidia использовала данные сторонней компании для обучения своих моделей ИИ. Упомянутая сторонняя компания получила данные путем несанкционированного копирования видео YouTube у создателей контента.

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *