Nvidia 洩密事件顯示,他們每天抓取「80 年」的 YouTube 影片來訓練 AI

根據洩漏的 Slack 內部聊天記錄、電子郵件和文件,Nvidia 利用 YouTube、Netflix 和其他來源的影片來訓練其人工智慧產品。

404 Media 的調查發現 Nvidia 有重大洩密事件。據該出版物稱,Nvidia 一直在透過抓取將各種來源的影片用於其 Omniverse 3D 世界生成器、自動駕駛汽車系統和「數位人類」產品。

負責抓取影片的員工經常對其道德和合法性表示擔憂,但都被他們的經理保持沉默。這些經理還聲稱已獲得公司最高層的許可來使用這些內容。

大部分影片來自 YouTube,其他素材來自 Netflix 和 GitHub 等平台。

在 Slack 的一次談話中,一位 Nvidia 的員工提出了抓取電影的想法。這一建議背後的理由是“電影可以提供高品質的數據,具有遊戲般的 3D 一致性和虛構內容。”

英偉達研究副總裁劉明宇回應道:“我們需要一名志工來下載所有電影。”

Nvidia 內部 Slack 聊天的螢幕截圖。
404媒體

根據 404 Media 獲得的電子郵件,專案經理正在考慮使用 Amazon Web Services 上的 20 到 30 個虛擬機器每天下載 80 年的影片。

「在 5 月發送的一封電子郵件中,劉表示,我們正在完成 v1 資料管道,並確保建立視訊資料工廠所需的運算資源,該工廠能夠每天產生相當於人類視覺壽命的訓練資料量。經驗。

在 Slack 頻道中,員工們也考慮收集哪些 YouTube 頻道的影片來進行人工智慧培訓。一位研究科學家在 Slack 頻道中分享了多個 YouTube 頻道的鏈接,並補充道:“如果您仍在尋求 YouTube 頻道的下載建議,這裡有一些可能值得考慮的鏈接。”

Nvidia 內部 Slack 聊天的螢幕截圖。
404媒體

這位科學家指出,這些連結來自各種 YouTube 頻道,包括 Expedia 和 Architectural Digest 的官方頻道等知名品牌,以及 Marques Brownlee (MKBHD) 等個人內容創作者。這位科學家還在他的 YouTube 影片連結旁邊對 MKBHD 的科技產品評論的高品質發表了評論。

Nvidia 在回應 404 Media 關於利用受版權保護的資料進行人工智慧訓練的法律和道德考慮的詢問時表示,他們的方法完全符合版權法的字面意義和意圖。

7 月份,英偉達還被指控利用第三方公司的資料來訓練其人工智慧模型。該第三方公司透過未經授權抓取內容創作者的 YouTube 影片來獲取這些資料。

發佈留言

發佈留言必須填寫的電子郵件地址不會公開。 必填欄位標示為 *