For ikke så lenge siden var det utenfor rekkevidde å mestre det gamle kinesiske spillet Go kunstig intelligens. Men da AlphaGo, Google DeepMinds AI-spiller, begynte å forlate selv de beste menneskelige motstandere i støvet. Enda til og med denne verdensslående AI trengte mennesker å lære av. Så onsdag, DeepMinds nye versjon grøftet folk helt.
AlphaGo Zero har overgått forgjengerens evner og omgått AIs tradisjonelle metode for å lære spill, som innebærer å se tusenvis av timers menneskelig lek. I stedet begynner den ganske enkelt å spille tilfeldig, ved å fatte ferdighetene sine ved å gjentatte ganger spille mot seg selv. Tre dager og 4.9 millioner slike spill senere, er resultatet verdens beste Go-playing AI.
"Det er kraftigere enn tidligere tilnærminger fordi vi har fjernet begrensningene for menneskelig kunnskap," sier David Silver, hovedforsker for AlphaGo.
"Menneskeheten har samlet Go-kunnskap fra millioner av spill spilt gjennom tusenvis av år," skriver forfatterne i papiret. "I løpet av noen dager ... AlphaGo Zero var i stand til å gjenoppdage mye av denne Go-kunnskapen, så vel som nye strategier som gir ny innsikt i det eldste av spill."
AlphaGo Zeros alternative tilnærming har gjort det mulig å oppdage strategier mennesker aldri har funnet. For eksempel lærte den mange forskjellige josekis - sekvenser av trekk som ikke resulterer i noe nettotap for noen av sidene. Det er skrevet mange josekier i løpet av de tusenvis av år Go har blitt spilt, og opprinnelig har AlphaGo Zero lært mange av de kjente. Men da egentreningen fortsatte, begynte den å favorisere tidligere ukjente sekvenser.
For å teste disse nye trekkene, puttet DeepMind AlphaGo Zero mot versjonen som slo verdensmesteren Lee Sedol i 18-tid. I et 100-spill nagekamp, vant den 100-0. Dette til tross for bare trening i tre dager, sammenlignet med flere måneder for forgjengeren. Etter 40 dager med trening vant den også 89-11 mot en bedre versjon av AlphaGo som hadde beseiret verdens nummer Ke Jie (Natur, DOI: 10.1038 / nature24270).