Nvidia 泄密案揭露他们每天抓取“80 年”的 YouTube 视频来训练 AI

根据泄露的内部 Slack 聊天记录、电子邮件和文档，Nvidia 利用来自 YouTube、Netflix 和其他来源的视频来训练其 AI 产品。

404 Media 的调查发现了 Nvidia 的大量泄密事件。据该报道，Nvidia 一直在通过抓取各种来源的视频来用于其 Omniverse 3D 世界生成器、自动驾驶汽车系统和“数字人”产品。

负责抓取视频的员工经常对其道德和合法性提出质疑，但都被他们的经理压制了。这些经理还声称已获得公司最高层的许可使用这些内容。

大部分视频来自 YouTube，还有一些材料来自 Netflix 和 GitHub 等平台。

在一次 Slack 对话中，Nvidia 的一名员工提出了抓取电影的想法。该建议背后的理由是“电影可以提供具有游戏般 3D 一致性和虚构内容的高质量数据。”

Nvidia 研究副总裁刘明宇 (Ming-Yu Liu) 回应道：“我们需要一名志愿者来下载所有电影。”

根据 404 Media 获得的电子邮件，项目经理正在考虑使用亚马逊网络服务上的 20 到 30 台虚拟机每天下载 80 年的视频。

“刘先生在 5 月份发送的一封电子邮件中表示，我们正在完成 v1 数据管道并确保所需的计算资源，以建立一个视频数据工厂，该工厂每天可产生相当于人类一生视觉经验的训练数据。”

在 Slack 频道中，员工们也在商讨要收集哪些 YouTube 频道的视频用于 AI 训练。一位研究科学家在 Slack 频道中分享了多个 YouTube 频道链接，并补充道：“如果您仍在寻找可供下载的 YouTube 频道建议，这里有一些值得考虑的频道。”

这位科学家指出，这些链接来自各种 YouTube 频道，包括 Expedia 和《建筑文摘》官方频道等知名品牌，以及 Marques Brownlee (MKBHD) 等个人内容创作者。这位科学家还在其 YouTube 视频链接旁边评论了 MKBHD 的科技产品评论质量很高。

Nvidia 在回应 404 Media 关于利用受版权保护的材料进行人工智能训练的法律和道德考虑时表示，他们的方法完全符合版权法的条文和意图。

7 月份，Nvidia 还被指控利用第三方公司的数据来训练其 AI 模型。该第三方公司通过未经授权从内容创作者那里抓取 YouTube 视频来获取数据。