close

Google 旗下 DeepMind 開辟出來的 AlphaGo,在人類圍棋界打遍全國無對手,但最近卻遭到一位小老弟 100:0 的局數完虐。DeepMind 在《Nature》揭曉比來論文,介紹最新版的 AlphaGo Zero,純潔靠強化進修,就成為最強的棋士。

本來舊版 AlphaGo 開辟時,先靠人類千年的聰明奠基,由曩昔的棋譜強化進修運算,算是綜合各家招數後自成一派。但是最新版的 AlphaGo Zero,研究人員只供應遊戲的劃定規矩,在不依賴人類數據之下自學,後果「無招勝有招」,體現更勝前代 AlphaGo。

DeepMind 作者群在論文中寫道,AlphaGo Zero 證實了即使在最具挑戰的範疇,純強化進修的方法也是完全可行的-完全不需要人類供應規範或指點,不供給根基規則以外的任何範疇常識,利用強化進修就能夠超出人類的水準。

此外,純強化進修方式只破費額外很少的練習時間,相較於利用人類數據,實現了更好的漸進機能(asymptotic performance)。

Facebook讚好 Facebook買讚好

在很多情形下,人類數據,希奇是專家數據,往往太甚昂貴,或底子沒法取得。是以,作者認為,如果雷同的手藝可以應用到其他問題上,這些沖破就有可能對社會產生積極的影響。

DeepMind 在論文中指出,在進行了 3 天的自我練習後,AlphaGo Zero 在 100 局角逐中以 100:0 擊敗了上一版本的 AlphaGo,也就是打敗南韓九段棋士李世乭的版本。以後,再經 40 天的自我訓練後,AlphaGo Zero 變得加倍壯大,超越了「Master」版本的 AlphaGo-完勝柯潔的版本。



來自: https://tw.news.yahoo.com/%E4%B8%8D%E9%9D%A0%E4%BA%BA%E9%A1%9E%E6%95%B8%E6%93%9A%E5%8F%8D%E8%80%8C%E
arrow
arrow
    創作者介紹
    創作者 reedph1h60i0 的頭像
    reedph1h60i0

    stephajoeldou

    reedph1h60i0 發表在 痞客邦 留言(0) 人氣()