當前位置：系統(tǒng)之家 > IT快訊 > 詳細頁面

不按套路出牌，圍棋“狗咬狗”竟然是這樣的結(jié)果？

編輯：xiaochun 2017-05-31 09:44:16 來源于：IT之家

　　在人機大戰(zhàn)2.0中，AlphaGo輕輕松松的將柯潔以3：0的成績KO了。而在戰(zhàn)勝世界第一的人類后，deepmind團隊也宣布了AlphaGo也將退出棋壇，因為以后的戰(zhàn)斗都沒什么意義了。而很多人則比較好奇，如果AlphaGo和自己對戰(zhàn)的話，那么結(jié)果又是怎樣的呢？而deepmind團隊就在近日放出了20局AlphaGo的自戰(zhàn)棋譜，告訴大家，什么叫“狗咬狗”。

不按套路出牌，圍棋“狗咬狗”竟然是這樣的結(jié)果？

　　“白狗”與“黑狗”的惡戰(zhàn)

　　Alphago自從誕生以來，主要通過自我對弈左右互搏不斷提升水平。和李世石對戰(zhàn)的版本已經(jīng)自我對弈了超過3000萬盤，而和柯潔對戰(zhàn)的版本恐怕早已左右互搏了上億盤。此番公布的50盤AlphaGo自戰(zhàn)都是慢棋，1-2分鐘一步，應該說實力上和與柯潔對戰(zhàn)的版本相同，所以很具有代表性。

　　“狗咬狗”會發(fā)生什么？可以肯定的是，其結(jié)局不是以拔電源告終，而是同樣互有輸贏，輸棋的一方也并不是先死機的那個，在很大程度上是決定于手里棋子的顏色。在AlphaGo的50局自戰(zhàn)中，執(zhí)白的一方——俗稱“白狗”贏了38盤，勝率接近80%，相當驚人。在人機大戰(zhàn)第二局中，柯潔執(zhí)白曾經(jīng)把局勢導入到很混亂的局面，他自稱一度看到了機會，在發(fā)布會上，他主動申請第三局執(zhí)白，希望能夠復制第二盤的格局，因為傳聞AlphaGo執(zhí)白棋的勝率會到55%。

　　但其實這終究不是一個概率學問題，AlphaGo自戰(zhàn)中“白狗”勝率驚人也并非因為運氣好，而是涉及到中國圍棋規(guī)則中的貼子（指先手一方補償給后手一方，確保黑白開局時局面均衡的保障），在人類高手看來，黑貼3又3/4子對黑棋來說負擔有點重，導致黑棋的行棋趨向于激烈化。如今看來，AlphaGo的自戰(zhàn)對局也證實了這一點，而且表現(xiàn)出來的差距遠比人類對局明顯，根據(jù)大量職業(yè)比賽的實戰(zhàn)結(jié)果統(tǒng)計，中國規(guī)則下人類職業(yè)棋手黑棋的勝率大概在47%。在棋力已入化境的AlphaGo看來“黑狗”勝率太低，所以或許中國規(guī)則中關(guān)于貼子的規(guī)定該有所改變了。

不按套路出牌，圍棋“狗咬狗”竟然是這樣的結(jié)果？

　　“狗咬狗”中人類被毀掉的“三觀”

　　AlphaGo的50局自戰(zhàn)棋譜，對于職業(yè)棋手來說，可是珍貴的“武功秘籍”，如同當年王重陽走后留下的一部九陰真經(jīng)。但是這本秘籍卻讓人大跌眼鏡，“三觀”盡毀，因為如果按照AlphaGo的套路，這么多年的圍棋可能真的是白學了，要不就是學了個假圍棋。

　　首先是“套路觀” 。眾所周知，下圍棋是有是定式的，有套路的。AlphaGo的套路是什么？就是沒套路。在這50盤對局中，AlphaGo幾乎沒有擺完一個人類常見的定式，要么是開了個定式的頭，但走兩步就脫先（各走各路，你走一步我不理，我走一步你當看不見）了，等什么時候想起來再看情況再出招，要么是直接忽略人類定式大全下出全新下法——可見人類圍棋史上總結(jié)的各類定式，絕大多數(shù)AlphaGo都是不認同的，這也說明了定式其實是人類圍棋的“過擬合”——為了得到一致假設而使假設變得過度嚴格。

不按套路出牌，圍棋“狗咬狗”竟然是這樣的結(jié)果？

　　其次是 “ 戰(zhàn)斗觀 ” 。如果你懂棋，那么AlphaGo自戰(zhàn)棋譜恐怕會讓你不敢直視，如果你不懂棋，那么設想一下，“狗咬狗”的畫面是黃藥師大戰(zhàn)歐陽鋒，而“狗咬人”則是黃藥師戲耍柯鎮(zhèn)惡。如果人類高手對局的對抗激勵程度是10，AlphaGo自我對弈的激烈程度起碼是100。全局性攻殺，大規(guī)模轉(zhuǎn)換，反復的劫爭在狗狗的自戰(zhàn)譜中比比皆是，這樣看和人類棋手對弈時求穩(wěn)的假象只是巨大優(yōu)勢下簡明取勝的策略而已，就像老虎和獅子爭霸那一定是打得天翻地覆，老虎跟人打隨便撓兩下就結(jié)束戰(zhàn)斗了。所以像柯潔與AlphaGo第二盤那樣的全局混戰(zhàn)在人類眼中可能是非常復雜激烈，人類會有機會，但在AlphaGo看來其實都是小把式。

不按套路出牌，圍棋“狗咬狗”竟然是這樣的結(jié)果？

　　再有是“目標觀”。 AlphaGo是實現(xiàn)“小目標”的堅定執(zhí)行者，盡管廝殺過程極其慘烈，但大部分情況下，激戰(zhàn)結(jié)束雙方各自收兵輕點棋盤上的累累尸骨劃定疆域，就會發(fā)現(xiàn)其實雙方的差距也就是半目或者一目半而已。50局自戰(zhàn)譜如果正常收完官子有約一半會以半目勝負收尾，可見AlphaGo掌控局勢的能力。而且在細微局面下AlphaGo的官子也不會出現(xiàn)和人類對弈時那種不斷退讓的情況。----比如本次人機大戰(zhàn)第一局，AlphaGo在開局領(lǐng)先后穩(wěn)穩(wěn)收兵最終只贏了1/4子，可以簡單理解為AlphaGo并不在乎贏多少，只在乎贏沒贏，它會在任一局面下尋找當前勝率最高的一點，而且AlphaGo這種勝率就像GDP制約達康書記一樣牽著AlphaGo，它的每一個選點都是當前局面勝率最高的一點（它自己認為的），所以才會經(jīng)常出現(xiàn)在一個局部走了幾步突然就不走了，脫先到另外一個地方走幾步，然后又回來了之類的前后不連貫的情況。

不按套路出牌，圍棋“狗咬狗”竟然是這樣的結(jié)果？

　　自相殘殺后留下“打狗秘籍”？

　　既然拿到了“武功秘籍”，勤加修煉是必然，但能“以其人之道還治其人之身”嗎？說得深一點，能實現(xiàn)人類圍棋的大躍進嗎？

　　人類圍棋的知識體系和AlphaGo完全不同，一個是由局部到全局的整合，一個是直接基于全局勝率選擇每一步棋的最佳選點。由于存在這樣根本性的差異，人類很難真正學會AlphaGo布局階段那些匪夷所思的脫先、打破定式的下法。再有，AlphaGo中后盤在激戰(zhàn)中的計算深度，遠遠超過人類大腦所能達到的限度——可以簡單粗暴的理解為“狗”在復雜戰(zhàn)斗中能把未來100步棋的最優(yōu)解找出來，而人類遠遠不能。

不按套路出牌，圍棋“狗咬狗”竟然是這樣的結(jié)果？

　　但“秘籍”不是廢紙，人類圍棋發(fā)展的套路，就是每次都是出現(xiàn)一個天才，大幅度拓展大家的思路，讓圍棋發(fā)展到一個頂峰，然后出現(xiàn)了“過擬合”，大家的棋都局限在一個地方，直到下一個天才出現(xiàn)再次打破常規(guī)。以往這個角色是道策、秀策、吳清源，而如今，可能就是穿越千年而來，提前告訴我們1000年后的圍棋該如何下的AlphaGo。

標簽 AlphaGo

相關(guān)推薦

AMD發(fā)布顯卡驅(qū)動WHQL 23.9.3！支持《賽博朋克 2077：往日之影》《收獲日 3》

AMD發(fā)布顯卡驅(qū)動WHQL 23.9.3！支持《賽博朋克 2077：往日之影》《收獲日 3》

AMD發(fā)布顯卡驅(qū)動WHQL 23.10.1！（附更新日志及下載地址）

AMD發(fā)布顯卡驅(qū)動WHQL 23.10.1�。ǜ礁氯罩炯跋螺d地址）

AMD發(fā)布九月最新顯卡驅(qū)動23.9.1！增加 Anti-Lag+ 和 HYPR-RX 新特性

AMD發(fā)布九月最新顯卡驅(qū)動23.9.1！增加 Anti-Lag+ 和 HYPR-RX 新特性

AMD發(fā)布二月顯卡驅(qū)動24.2.1！新增了部分擴展的Vulkan擴展支持

AMD發(fā)布二月顯卡驅(qū)動24.2.1！新增了部分擴展的Vulkan擴展支持

發(fā)表評論

共0條

驗證碼

沒有更多評論了

評論就這些咯，讓大家也知道你的獨特見解

以上留言僅代表用戶個人觀點，不代表系統(tǒng)之家立場

熱門資訊

頻道熱點資訊

<strong id="gbx7m"><pre id="gbx7m"></pre></strong>

<th id="gbx7m"><kbd id="gbx7m"><pre id="gbx7m"></pre></kbd></th>