“智”械危機(jī) AI通關(guān)《寶可夢(mèng)》首個(gè)道館花了7千小時(shí)
- 來源:gamesradar
- 作者:3DM編譯
- 編輯:早晨
近日國(guó)外一位程序員Peter Whidden對(duì)AI模型進(jìn)行了長(zhǎng)達(dá)5萬小時(shí)的訓(xùn)練,試圖教AI如何玩《寶可夢(mèng) 火紅》。
Whidden讓AI通過模擬器上的控制輸入與游戲進(jìn)行交互,并將學(xué)習(xí)會(huì)話設(shè)置為每次游玩兩個(gè)小時(shí),他還通過加速讓AI在六分鐘左右完成,甚至還同時(shí)運(yùn)行40個(gè)會(huì)話,從而加快了AI的學(xué)習(xí)過程。
由于AI算法本質(zhì)上并不在意如何通關(guān)游戲,因此Whidden設(shè)定了獎(jiǎng)勵(lì)目標(biāo),每當(dāng)AI發(fā)現(xiàn)新東西時(shí)就能獲得獎(jiǎng)勵(lì)點(diǎn)。這是利用屏幕中像素點(diǎn)變化來觸發(fā)的,不過這也導(dǎo)致AI會(huì)長(zhǎng)時(shí)間盯著有動(dòng)畫效果的水面發(fā)呆。
而與新事物有關(guān)的獎(jiǎng)勵(lì)機(jī)制,也令A(yù)I選擇放棄戰(zhàn)斗或抓捕寶可夢(mèng),Whidden為此添加了與寶可夢(mèng)等級(jí)相關(guān)的獎(jiǎng)勵(lì)機(jī)制。但這一系統(tǒng)也導(dǎo)致了意外,AI在存放和替換寶可夢(mèng)時(shí)會(huì)讓獎(jiǎng)勵(lì)分?jǐn)?shù)下降,因此在之后的行動(dòng)中AI完全避開寶可夢(mèng)中心,使得隊(duì)伍得不到治療,Whidden不得不再次調(diào)整獎(jiǎng)勵(lì)系統(tǒng)。
雖然AI不擅長(zhǎng)人類行為,但也做出了更加深?yuàn)W的行動(dòng),Whidden意識(shí)到AI走出具體且奇怪的路徑,其實(shí)是為了保證只需扔出一個(gè)精靈球就能捕獲野生寶可夢(mèng),并非是無意義的行動(dòng)。
不過AI在花費(fèi)7千個(gè)小時(shí)擊敗第一個(gè)道館后,卻在月見山迷路許久,耗時(shí)5萬小時(shí)后還是沒能找到第二個(gè)道館。但AI也貢獻(xiàn)了許多神奇操作,比如AI最喜歡購(gòu)入鯉魚王,累計(jì)購(gòu)買超過1萬次;在野外抓捕到小拉達(dá)時(shí),將其命名為“AI”。
玩家點(diǎn)評(píng) (0人參與,0條評(píng)論)
熱門評(píng)論
全部評(píng)論