根據紐約時報報導,AI 巨頭 OpenAI、Google 兩家科技巨頭,使用超過 100 萬小時的 YouTube 影片轉錄內容來訓練其 AI 模型。這些影片涵蓋了廣泛的主題,包括遊戲、教育、音樂、政治和宗教,此消息一出,引發人們對數據收集和使用的擔憂,擔心科技巨頭可能會使用這些數據,用以議題操作或甚至侵犯隱私的疑慮。
根據報導,OpenAI 使用名為 YouTube-8M 數據集,這數據包含遊戲、教育、音樂、政治與宗教…等主題,合計超過 800 萬部、100 萬小時以上影片,用以訓練 GPT-4 語言模型。以往 AI 語言模型所收集數據,多以文字類型為主,如文章、報導與書籍,但這樣的資料缺乏人與人互相溝通的用法,透過 YouTube 語音資料,可以訓練出應答更具人性的模型。目前尚未知道 OpenAI 是否用於訓練影音生成模型 Sora,不過如果有也不太意外。
而 Google 部分,在 2023 年 6 月 調整隱私政策,讓使用者同意得以使用公開內容,用以訓練 AI 模型,而 Google 所取用的內容,只有在選擇加入 Google 實驗資料分享的使用者,才會被取用。
對此,Google 發言人表示,在他們 robots.txt 文件與服務條款,都禁止未經授權的抓取或下載 YouTube 內容。OpenAI 和 Google 都表示,他們是從公開可用的 YouTube 影片中獲取的數據,以說明他們已經採取了措施來保護用戶的隱私。
當然,AI 必須更多資料才能完備所生成內容的準確性,也更能用自然的方式與人溝通,但取得資料用以訓練模型,我認為這需要經過使用者同意,如選擇加入實驗與分享資訊的那群人。但 AI 公司為了搶先在賽道上取得領先地位,或許未經同意使用了公開資料,當然不太可能知道哪些資料是用了我們的公開資訊,但為了防範有相同技術但懷有惡意的公司進行這樣活動,或許在使用者資料的保護上,這些平台可能要多做一些事情。