漏洩した内部Slackチャット、電子メール、文書によると、NvidiaはYouTube、Netflix、その他のソースからの動画を利用してAI製品をトレーニングしていた。
404 Media の調査により、Nvidia からの大規模な漏洩が明らかになりました。同メディアによると、Nvidia はスクレイピングを通じて、Omniverse 3D ワールド ジェネレーター、自動運転車システム、および「デジタル ヒューマン」製品にさまざまなソースからのビデオを利用していたとのことです。
動画のスクレイピングに関与した従業員らは、その倫理性と合法性について頻繁に懸念を表明したが、上司らはそれを黙らせた。また、上司らは、コンテンツの使用について社内の上層部から許可を得たと主張した。
ビデオの大部分は YouTube から取得され、追加の素材は Netflix や GitHub などのプラットフォームから取得されました。
Slack での会話中に、Nvidia の従業員が映画をスクレイピングするというアイデアを提案しました。この提案の根拠は、「映画はゲームのような 3D の一貫性とフィクションのコンテンツを備えた高品質のデータを提供できる」というものでした。
Nvidiaの研究担当副社長、ミン・ユー・リウ氏は、「すべての映画をダウンロードするにはボランティアが必要です」と答えた。
404 Mediaが入手した電子メールによると、プロジェクトマネージャーはAmazon Web Services上の20~30台の仮想マシンを使用して、1日あたり80年分のビデオをダウンロードすることを検討しているという。
「5月に送られた電子メールで、Liu氏は、v1データパイプラインを完成させ、人間の一生の視覚経験に相当するトレーニングデータを毎日生成できるビデオデータファクトリーを確立するために必要なコンピューティングリソースを確保するプロセスにあると述べました。」
Slack チャンネルでは、従業員らが AI トレーニング用にどの YouTube チャンネルの動画を集めるかについても議論していた。研究科学者は Slack チャンネルで複数の YouTube チャンネルへのリンクを共有し、「ダウンロードする YouTube チャンネルの提案をまだ探しているなら、検討する価値があるものをいくつか紹介します」と付け加えた。
科学者は、リンクはさまざまなYouTubeチャンネルからのものであり、その中にはExpediaやArchitectural Digestの公式チャンネルなどの有名ブランドや、Marques Brownlee(MKBHD)のような個人のコンテンツクリエイターも含まれていると指摘した。科学者はまた、YouTube動画へのリンクの横にあるMKBHDのハイテク製品レビューの質の高さについてもコメントした。
Nvidia は、AI トレーニングに著作権で保護された素材を利用することに関する法的および倫理的考慮事項に関する 404 Media からの問い合わせに対し、同社の方法は著作権法の文言と意図の両方に完全に準拠していると述べました。
エヌビディアは7月にも、自社のAIモデルのトレーニングに第三者企業のデータを利用したとされている。この第三者企業は、コンテンツ制作者からYouTube動画を無断でスクレイピングしてデータを入手していた。
コメントを残す