엔비디아 유출로 AI 훈련 위해 하루에 “80년 분”의 YouTube 동영상 스크래핑

유출된 Slack 내부 채팅, 이메일, 문서에 따르면 Nvidia는 YouTube, Netflix 및 기타 소스의 비디오를 활용하여 AI 제품을 훈련했습니다.

404 Media의 조사에서 Nvidia의 대규모 유출이 밝혀졌습니다. 해당 출판물에 따르면 Nvidia는 스크래핑을 통해 Omniverse 3D 세계 생성기, 자율 주행 자동차 시스템 및 “디지털 인간” 제품에 다양한 소스의 비디오를 활용하고 있습니다.

비디오 스크래핑을 담당한 직원들은 종종 윤리와 합법성에 대한 우려를 제기했지만, 관리자들은 침묵을 지켰습니다. 이 관리자들은 또한 회사 최고위층으로부터 콘텐츠를 사용하도록 허가를 받았다고 주장했습니다.

대부분의 영상은 YouTube에서 가져왔고, Netflix와 GitHub 등의 플랫폼에서 추가 자료를 가져왔습니다.

Slack 대화 중에 Nvidia의 한 직원이 영화를 스크래핑하는 아이디어를 제안했습니다. 이 제안의 근거는 “영화는 게임과 같은 3D 일관성과 허구적 콘텐츠로 고품질 데이터를 제공할 수 있다”는 것이었습니다.

엔비디아의 연구 부사장인 밍유 리우는 “모든 영화를 다운로드할 자원봉사자가 필요합니다.”라고 답했습니다.

Nvidia 내부 Slack 채팅의 스크린샷입니다.
404 미디어

404 Media가 입수한 이메일에 따르면, 프로젝트 매니저들은 Amazon Web Services에서 20~30개의 가상 머신을 이용해 하루에 80년 분의 영상을 다운로드하는 것을 고려하고 있습니다.

“5월에 보낸 이메일에서 Liu는 우리가 v1 데이터 파이프라인을 완료하고 평생의 인간 시각 경험과 동등한 일일 교육 데이터 수확량을 생산할 수 있는 비디오 데이터 팩토리를 구축하는 데 필요한 컴퓨팅 리소스를 확보하는 과정에 있다고 말했습니다.”

Slack 채널에서 직원들은 AI 훈련을 위해 어떤 YouTube 채널의 비디오를 수집할지에 대해서도 논의했습니다. 한 연구 과학자는 Slack 채널에서 YouTube 채널에 대한 여러 링크를 공유하고 “아직도 다운로드할 YouTube 채널에 대한 제안을 찾고 있다면, 고려해 볼 만한 몇 가지가 있습니다.”라고 덧붙였습니다.

Nvidia 내부 Slack 채팅의 스크린샷입니다.
404 미디어

과학자는 링크가 Expedia와 Architectural Digest의 공식 채널과 같은 잘 알려진 브랜드와 Marques Brownlee(MKBHD)와 같은 개별 콘텐츠 제작자를 포함한 다양한 YouTube 채널에서 온 것이라고 언급했습니다. 과학자는 또한 YouTube 비디오 링크 옆에 MKBHD의 기술 제품 리뷰의 높은 품질에 대한 의견을 남겼습니다.

엔비디아는 404 미디어가 AI 학습에 저작권이 있는 자료를 사용하는 것과 관련된 법적, 윤리적 고려 사항을 문의하자, 자사 방법이 저작권법의 문자적, 의도를 모두 완벽하게 준수한다고 답했습니다.

엔비디아는 7월에 제3자 회사의 데이터를 사용하여 AI 모델을 훈련했다는 주장도 제기되었습니다. 해당 제3자 회사는 콘텐츠 제작자의 YouTube 비디오를 허가 없이 스크래핑하여 데이터를 획득했습니다.

답글 남기기

이메일 주소는 공개되지 않습니다. 필수 필드는 *로 표시됩니다