AlphaZero

AlphaZero
Equip

Tipus	programa informàtic
Versió inicial	2017

Desenvolupador(s)	Google DeepMind


Més informació
Stack Exchange	Etiqueta

AlphaZero és un programa informàtic desenvolupat per DeepMind, que utilitza un enfocament generalitzat d'AlphaGo Zero. El 5 de desembre de 2017, l'equip de DeepMind va llançar una preimpressió presentant AlphaZero, que va aconseguir en 24 hores un nivell de joc sobrehumà en escacs, shogi i Go en derrotar els campions del món, Stockfish, Elmo i la versió de 3 dies d'AlphaGo Zero en cada cas. AlphaZero va dominar Stockfish després de només 4 hores d'autoaprenentatge, sense accés a llibres d'obertura o base de dades de taules de finals.^[1]^[2]^[3]

Relació amb AlphaGo Zero

AlphaZero (AZ) és una variant més generalitzada de l'algorisme AlphaGo Zero (AGZ), i és capaç de jugar shogi i escacs, així com Go. Les diferències entre AZ i AGZ inclouen:

AZ té regles codificades per establir hiperparàmetres de cerca.
Ara la xarxa neuronal s'actualitza contínuament.
Go (a diferència dels escacs) és simètric sota certes reflexions i rotacions; AGZ va ser programat per aprofitar aquestes simetries. AZ no és.
Els escacs (a diferència de Go) poden acabar empatats, per tant, AZ pot tenir en compte la possibilitat de les taules.

AlphaZero vs Stockfish i Elmo

En comparar les cerques d'arbre de cerca Monte Carlo, AlphaZero busca només 80,000 posicions per segon en escacs i 40,000 en shogi,^[4] en comparació amb 70 milions per Stockfish i 35 milions per Elmo. AlphaZero compensa el nombre més baix d'avaluacions mitjançant l'ús de la seva xarxa neuronal profunda per centrar-se molt més selectivament en la variació més prometedora.^[1]

Resultats

A les partides d'escacs d'AlphaZero contra Stockfish, a cada programa se li va donar un minut de temps de reflexió per jugada. AlphaZero va guanyar 25 partides amb les blanques, en va guanyar 3 amb les negres i va empatar les 72 restants.^[1] El 2017, StockFish 8 era el campió vigent del campionat organitzat per chess.com d'escacs per ordinador, amb un Elo de 3400 punts.^[5]

En cent partides de shogi contra Elmo, AlphaZero va guanyar noranta i en va perdre vuit.^[1]

Després de 8 hores d'autoaprenentatge de Go tenint com a contrincant una versió prèvia d'AlphaZero, AlphaZero va guanyar seixanta partides i en va perdre quaranta.^[1]

En una versió actualitzada d'AlphaZero aquest va vèncer a Stockfish 8 en un matx de 1000 partides, obtenint un resultat de +155 -6 = 839.^[6] Calculant aquest resultat a Elo, AlphaZero seria superior a Stockfish 8 en 53 punts Elo. La diferència d'Elo és molt menor del que sembla i s'explica per la gran quantitat de taules al matx. (Alphazero va obtenir 57.45% dels punts vs 42.55% que va obtenir StockFish 8 ^[7]).

Referències

↑ ^1,0 ^1,1 ^1,2 ^1,3 ^1,4 ; Hubert, Thomas; Schrittwieser, Julian «Mastering Chess and Shogi by Self-Play with a General Reinforcement Learning Algorithm» (en anglès). , 05-12-2017, p. 4-5 [Consulta: 7 desembre 2017].
↑ «Entire human chess knowledge learned and surpassed by DeepMind's AlphaZero in four hours» (en anglès). , 06-12-2017 [Consulta: 6 desembre 2017].
↑ «DeepMind’s AI became a superhuman chess player in a few hours, just for fun». , 06-12-2017 [Consulta: 6 desembre 2017].
↑ Alphazero, un avance muy significativo en la Inteligencia Artificial
↑ «Stockfish gana el Campeonato de módulos de ajedrez». chess.com, 18-11-2017. [Consulta: 7 desembre 2017].
↑ ^{[enllaç sense format]} https://www.chess.com/es/news/view/alphazero-stockfish-ajedrez
↑ ^{[enllaç sense format]} https://chess24.com/es/informate/noticias/la-impresionante-fuerza-de-alphazero

Enllaços externs

AlphaZero: Shedding new light on the grand games of chess, shogi and Go Arxivat 2019-08-01 a Wayback Machine.