只有 AI 才能打敗AI: AlphaGo Zero 不需人類指導 自學3天完勝舊版

在今年 5 月,AlphaGo 擊敗世界冠軍柯潔,然而高處未算高,Deepmind 團隊研發出 AlphaGo Zero ,僅僅利用3天,就能夠無師自通,撃敗舊版本的AlphaGo,21 天可以達到擊敗柯潔的 AlphaGo Master 水平。

AlphaGo Zero 不受人類知識限制 從自己的對弈中學習

人工智能研究在從語音識別和圖像分類到基因組學和藥物發現的各個領域取得了快速進展,然而在許多情況下,機器學習 (Machine Learning) 都需要利用大量人力資源和數據,亦即是使用監督式學習(Supervised learning)。

監督式學習中,所有資料都有標準答案,可以提供機器學習在輸出時判斷誤差使用,預測時比較精準。這種方法等於是人工「分類」,需要大量的人力。

然而,監督式學習對於某些問題,人類的知識可能太珍貴及不可靠。 因此,AI研究的長期目標是繞過這一步驟,創造算法,在沒有人類投入的時候自行處理數據。這種非監督式學習(Un-supervised learning),所有資料都沒有標準答案,無法提供機器學習輸出判斷誤差使用,機器必須自己尋找答案。

舊版的AlphaGo最初接受了數千人的業餘和專業遊戲的訓練,亦有多名圍棋好手教過它數百萬手棋的下法,再調整策略。

AlphaGo Zero 直接跳過這一步,開發人員只教了它圍棋的基本玩法,沒有更多的指導下,就能靠著自我學習,就摸索出所有基本且重要的圍棋知識,達到了與李世石九段對戰的相同水平。

 

AlphaGo Zero 之所以如此強大,正正因為它不受人類的知識所限制。相反,它從世界上最強的大腦中學習圍棋的玩法:AlphaGo本身。

它通過使用一種新穎的強化學習形式,AlphaGo Zero成為自己的老師,可以做到這一點。系統從一個神經網絡開始,通過將這個神經網絡與強大的搜索算法相結合,對自身進行遊戲。通過每一步與自己的對弈,它都會調整和更新自己的神經網絡以預測下一步動作。

每一局後,它會將這個更新的神經網絡與搜索算法重組,以創建一個新的,更強的版本的AlphaGo Zero,並再次重覆整個過程,令神經網絡越來越精確的。

只需一個神經網路 更簡潔

AlphaGo Zero 使用一個神經網路而不是之前的兩個。以前版本的 AlphaGo 使用一個「策略網路」來選擇落子的位置,並使用另一個「價值網路」來預測遊戲的輸贏結果。而在 AlphaGo Zero 中下一步落子的位置和輸贏評估在同一個神經網路中進行,從而使其可以更好地進行訓練和評估。

研究人員更指出,AlphaGo Zero其後更在40天之內,就自我發掘出圍棋的要旨,自創新的策略,開發出自己的妙着,顯現出它具有真正的創意,成為圍棋這個3000年歷史遊戲的高手,是以形容它「自學了人類數千年才累積得來的知識」。

由於 AlphaGo Zero 的程式核心只有一套神經網路系統,強調演算法的重要性。AlphaGo Zero 無需進行隨機推演(Rollout)——這是一種在其他圍棋程式中廣泛使用於勝負的快速隨機策略,從而通過比較確定每一手之後輸贏的機率,選擇最佳落子位置。相反地,它依賴於高品質的神經網路來評估落子位置。

和擊敗李世石的程式相比,AlphaGo Zero 只有四個資料處理器,而「AlphaGo」需使用多部機器,有四十八個資料處理器。因此,AlphaGo Zero 需要的處理能力亦對比前幾代大幅下降。

預計將來可用於不同行業

論文指出,在數百萬局自我對弈及訓練後,AlphaGo Zero獨立發現了人類花數千年才總結出的圍棋規則,還建立了新戰略,為這個古老的遊戲帶來新見解。世界頂尖棋手的養成,動輒需要數十年的訓練、磨礪,但AlphaGo Zero創下只需三天的紀錄。

AlphaGo首席研究員西爾弗(David Silver)稱,現時的AI只是為個別目的而研發出來,只負責單一用途,例如翻譯語言、臉部辨識等。但 AI 將來可以應用於不同種類工作,例如Zero目前亦正研究蛋白質摺疊(proteins fold)原理。

深度思維行政總裁哈薩比斯說,他希望人工智能的這種進步能夠被應用於分析蛋白質結構、設計新材料等領域。

資料來源:DeepMind

發表迴響

你的電子郵件位址並不會被公開。 必要欄位標記為 *

限制時效已用盡。請重新載入驗證碼。