當 AI 學會下圍棋,它打敗了世界棋王;當 AI 學會好奇心,它玩了一整天電動。
研究人員所使用的 Open AI ,是由特斯拉創辦人馬斯克所創立的非營利機構。近日一份關於「好奇心驅動學習」的報告顯示,當中他們展示了:AI 模型如何在沒有獎勵機制的情況下的發展與學習技能。
人類在學習時,需要有個明確的目標作為驅動,AI 也是,而這項研究將 AI 學習的過程,以「好奇心」取代「目標」,研究團隊認為,人類在嬰兒時期是在無目標的狀態下,探索與學習生活中的技能,在機器人沒有獎勵機制的狀態下,我們能真正開發「自動化」的機器人,例如將機器人放置在外太空探索。
為了研究內在動機與深度學習的交互影響,研究人員將電玩視為研究工具,利用遊戲固定的規則與獎勵,這樣的特性特別適合研究 AI。研究人員只需要教導 AI 遊戲規則,例如以得分為目標。
他們選擇了兩款遊戲讓 AI 遊玩,分別是打磚塊、瑪利歐。前者隨著遊戲局數增加,AI 開始意識到遊戲生命耗盡之後,會導致遊戲重新開始,因此學會避免「失敗」。而後者則展現 AI 通過了11 關,展現出於好奇心的狀態下,人工智能可以自我學習的特點。
我們知道 Open AI 的創辦人馬斯克對於 AI 的未來,是呈現悲觀的態度,所以建立了非營利機構研究 AI。而這次實驗雖然展示了 AI 最像人類的一面,過去的實驗卻不是那麼「可愛,如當研究人員讓兩個 AI 玩遊戲,而雙雙都為了「得分」而失控。
AI 最後是否會像科幻片那樣,成為邪惡帝國的中心,或是人類最可靠的夥伴,目前還沒有人能定論。