AlphaGo團(tuán)隊(duì):柯潔站在人類頂峰 機(jī)器將自身進(jìn)化
AlphaGo團(tuán)隊(duì):柯潔站在人類頂峰 機(jī)器將自身進(jìn)化
?。ㄋ押w育郭健5月24日發(fā)自浙江烏鎮(zhèn))今天上午,2017中國(guó)烏鎮(zhèn)人工智能高峰論壇在浙江省桐鄉(xiāng)市烏鎮(zhèn)國(guó)際會(huì)展中心拉開帷幕。率先登上論壇發(fā)表主題演講的是AlphaGo之父——Deepmind團(tuán)隊(duì)負(fù)責(zé)人德米什-哈薩比斯(DemisHassabis)。在名為《直覺和創(chuàng)造力》的主題演講中,這位1976年出生的英國(guó)人詳細(xì)闡述了AlphaGo的研發(fā)機(jī)理和進(jìn)化過程。
Deepmind公司于2010年在倫敦創(chuàng)立,2014年加入谷歌,目前有500名員工,其中包括250位研究科學(xué)家。其目標(biāo)為通過打造實(shí)施人工智能的“阿波羅計(jì)劃”來研發(fā)科學(xué)的新方式,從而“攻克智能,再用智能解決所有問題”。Deepmind為廣大中國(guó)人所熟知是在去年,其研發(fā)的AlphaGo人工智能程序在五番棋較量中戰(zhàn)勝前世界第一、韓國(guó)棋手李世乭,震驚全世界。
在具體談到AlphaGo之前,哈薩比斯首先提起了IBM深藍(lán)與國(guó)際象棋棋王卡斯帕羅夫的經(jīng)典戰(zhàn)役。1997年34歲的卡斯帕羅夫與“深藍(lán)”展開六盤“人機(jī)大戰(zhàn)”。最終深藍(lán)以2勝3和1負(fù)的戰(zhàn)績(jī)?nèi)〉昧藳Q定性的勝利。
“應(yīng)該說,當(dāng)時(shí)的深藍(lán)還不是真正的人工智能,因?yàn)闄C(jī)器只是被動(dòng)地接受了工程師預(yù)設(shè)的程序,”哈薩比斯指出,人工智能要能夠達(dá)到在非程序預(yù)設(shè)情況下自主學(xué)習(xí)原始材料,并通過統(tǒng)一系統(tǒng)執(zhí)行多種任務(wù)且具有深度學(xué)習(xí)和強(qiáng)化學(xué)習(xí)的能力。
“我們最新的AlphaGo系統(tǒng)已經(jīng)研發(fā)了三年的時(shí)間了,為什么最終會(huì)選擇圍棋作為突破口呢?因?yàn)橛?jì)算機(jī)下圍棋是非常困難的,其復(fù)雜程度讓窮舉搜索都難以解決問題,”哈薩比斯認(rèn)為圍棋不可能通過寫出評(píng)估程序來決定輸贏,同時(shí)搜索空間又太過龐大,這讓它成為人工智能技術(shù)最好的試金石,“圍棋不像象棋等游戲是靠計(jì)算來競(jìng)技的,它是靠直覺。另外圍棋是筑防游戲,本來棋盤是空的,要往上面擺子,而不像國(guó)際象棋那樣本來棋盤就已經(jīng)固定了棋子的初始位置,因此需要盤算未來。另外在圍棋中沒有等級(jí)概念,所有棋子都是一樣的,”哈薩比斯強(qiáng)調(diào)小小一子就有撼動(dòng)全局的力量,“妙手如同受到天啟,玄妙深?yuàn)W!”哈薩比斯充滿神秘感的說到。事實(shí)上,在昨天與柯潔的首回合較量中,AlphaGo就曾經(jīng)弈出過這樣的妙手。當(dāng)執(zhí)白的AlphaGo第54手“斷”時(shí),柯潔瞬間震驚了,“這種棋不可能在人類棋局中出現(xiàn),AlphaGo就是圍棋上帝!”
在此前同李世乭的對(duì)局中,AphaGo也屢屢展現(xiàn)“妙手”的威力,并讓對(duì)手得到了啟迪,“我認(rèn)為這給圍棋引入了新思路,我感覺找到了自己下棋的理由,”李世乭賽后說。值得一提的是,AlphaGo與李世乭的五番棋較量吸引了2.8億觀眾,媒體相關(guān)報(bào)道達(dá)到3.5萬篇,也帶動(dòng)棋盤銷售量增幅10倍。
“直覺就是通過體驗(yàn)直接獲得的初步感知,雖然無法表達(dá)出來,但可通過行為確認(rèn)其存在和正誤,”哈薩比斯說,“而創(chuàng)造力則是通過組合已有知識(shí)產(chǎn)生新穎或獨(dú)特想法的能力?!彼J(rèn)為目前AlphaGo已經(jīng)能夠模仿人的直覺,而在創(chuàng)造力方面盡管所觸及的領(lǐng)域有限,但它也已經(jīng)顯示出了具有這樣的能力。“深藍(lán)已經(jīng)結(jié)束,AlphaGo才剛剛開始!”國(guó)際象棋棋王卡斯帕羅夫深有感觸地說。
“信息過載和系統(tǒng)冗雜是巨大挑戰(zhàn),開發(fā)人工智能技術(shù)可能是這些問題的元解決方案,同時(shí)通過人工智能技術(shù)將幫助我們更好理解人腦的奧秘,”哈薩比斯在其演講行將結(jié)束時(shí)表示,同時(shí)他強(qiáng)調(diào),“人工智能必須在倫理和道德框架內(nèi)被恰當(dāng)運(yùn)用才能夠造福人類?!?/p>
此后登場(chǎng)的AlphaGo首席科學(xué)家大衛(wèi)-席爾瓦(Dave Silver)詳細(xì)介紹了AlphaGo運(yùn)作的基本原理?!八捎玫氖蔷矸e神經(jīng)網(wǎng)絡(luò),一種包括了策略網(wǎng)絡(luò)與價(jià)值網(wǎng)絡(luò)的神經(jīng)網(wǎng)絡(luò),”大衛(wèi)表示,策略網(wǎng)絡(luò)是為了確保AlphaGo選擇最好的一步,而價(jià)值網(wǎng)絡(luò)可以預(yù)測(cè)每一步之后誰要贏,“這是為未來的輸贏做一個(gè)預(yù)測(cè),不是靜態(tài)的去看這一步棋下在哪里,”大衛(wèi)強(qiáng)調(diào)以策略網(wǎng)絡(luò)減少問題的寬度,而價(jià)值網(wǎng)絡(luò)則減少了其深度。
“首先我們要有人類專家的大量的數(shù)據(jù)庫,這樣通過策略網(wǎng)絡(luò)調(diào)整,讓機(jī)器可以走出和人類大師一樣的棋,達(dá)到監(jiān)督式學(xué)習(xí)的目的,同時(shí)為強(qiáng)化學(xué)習(xí)做好準(zhǔn)備,”在談到AlphaGo學(xué)習(xí)過程時(shí)大衛(wèi)說,“我們用最好最可用的數(shù)據(jù)來訓(xùn)練它,而最好的數(shù)據(jù)不是來自人類,是來自它自己。自己做自己的老師,也就是說,這一代AlphaGo會(huì)成為下一代的老師。”通過自我對(duì)弈進(jìn)行強(qiáng)化學(xué)習(xí),正是AlphaGo最強(qiáng)大的地方之一。也正是這種令人類匪夷所思的“雙手互搏”式學(xué)習(xí)方法讓柯潔徹底打消了之后繼續(xù)與人工智能作戰(zhàn)的想法,“它進(jìn)步和提升得太快了,我們?nèi)祟悆H靠自身是不能彌補(bǔ)這種差距的,”昨天首回合落敗后,柯潔對(duì)記者如是說。
值得一提的是,與一般人所設(shè)想的不同。新一代的AlphaGo運(yùn)算量在不斷減少,目前與柯潔的對(duì)弈的版本只是之前對(duì)戰(zhàn)李世石時(shí)運(yùn)算量的1/10?!吧钏{(lán)每秒可以進(jìn)行1億次運(yùn)算,而AlphaGo則要少得多。可以說,AlphaGo比深藍(lán)更聰明,而不是更快,”大衛(wèi)深入淺出地說。
“圍棋是人類歷史上最古老、研究最深入的游戲,也是構(gòu)建和理解運(yùn)算的最佳實(shí)驗(yàn)臺(tái),”在談到人機(jī)大戰(zhàn)這個(gè)話題時(shí)大衛(wèi)說,“柯潔已經(jīng)站在了人類知識(shí)金字塔的最頂峰,而在圍棋世界人工智能面臨著巨大挑戰(zhàn)?!泵鎸?duì)挑戰(zhàn),通過與李世石的五番棋和與柯潔的首回合較量,AlphaGo已經(jīng)交出了一份亮眼的答卷。未來,其團(tuán)隊(duì)期待著通過自我對(duì)弈這種強(qiáng)化學(xué)習(xí)方式所產(chǎn)生的新的策略和價(jià)值網(wǎng)絡(luò)可以用于AlphaGo的下一個(gè)迭代中,這也就意味著機(jī)器或者說程序可以完全通過自身實(shí)現(xiàn)進(jìn)化?。ㄋ押w育 郭健/文)
繼續(xù)閱讀與本文標(biāo)簽相同的文章