AlphaZero

AlphaZero

Tipusprograma informàtic Modifica el valor a Wikidata
Versió inicial2017 Modifica el valor a Wikidata
Equip
Desenvolupador(s)Google DeepMind Modifica el valor a Wikidata
Més informació
Stack ExchangeEtiqueta Modifica el valor a Wikidata

AlphaZero és un programa informàtic desenvolupat per DeepMind, que utilitza un enfocament generalitzat d'AlphaGo Zero. El 5 de desembre de 2017, l'equip de DeepMind va llançar una preimpressió presentant AlphaZero, que va aconseguir en 24 hores un nivell de joc sobrehumà en escacs, shogi i Go en derrotar els campions del món, Stockfish, Elmo i la versió de 3 dies d'AlphaGo Zero en cada cas. AlphaZero va dominar Stockfish després de només 4 hores d'autoaprenentatge, sense accés a llibres d'obertura o base de dades de taules de finals.[1][2][3]

Relació amb AlphaGo Zero

AlphaZero (AZ) és una variant més generalitzada de l'algorisme AlphaGo Zero (AGZ), i és capaç de jugar shogi i escacs, així com Go. Les diferències entre AZ i AGZ inclouen:

  • AZ té regles codificades per establir hiperparàmetres de cerca.
  • Ara la xarxa neuronal s'actualitza contínuament.
  • Go (a diferència dels escacs) és simètric sota certes reflexions i rotacions; AGZ va ser programat per aprofitar aquestes simetries. AZ no és.
  • Els escacs (a diferència de Go) poden acabar empatats, per tant, AZ pot tenir en compte la possibilitat de les taules.

AlphaZero vs Stockfish i Elmo

En comparar les cerques d'arbre de cerca Monte Carlo, AlphaZero busca només 80,000 posicions per segon en escacs i 40,000 en shogi,[4] en comparació amb 70 milions per Stockfish i 35 milions per Elmo. AlphaZero compensa el nombre més baix d'avaluacions mitjançant l'ús de la seva xarxa neuronal profunda per centrar-se molt més selectivament en la variació més prometedora.[1]

Resultats

A les partides d'escacs d'AlphaZero contra Stockfish, a cada programa se li va donar un minut de temps de reflexió per jugada. AlphaZero va guanyar 25 partides amb les blanques, en va guanyar 3 amb les negres i va empatar les 72 restants.[1] El 2017, StockFish 8 era el campió vigent del campionat organitzat per chess.com d'escacs per ordinador, amb un Elo de 3400 punts.[5]

En cent partides de shogi contra Elmo, AlphaZero va guanyar noranta i en va perdre vuit.[1]

Després de 8 hores d'autoaprenentatge de Go tenint com a contrincant una versió prèvia d'AlphaZero, AlphaZero va guanyar seixanta partides i en va perdre quaranta.[1]

En una versió actualitzada d'AlphaZero aquest va vèncer a Stockfish 8 en un matx de 1000 partides, obtenint un resultat de +155 -6 = 839.[6] Calculant aquest resultat a Elo, AlphaZero seria superior a Stockfish 8 en 53 punts Elo. La diferència d'Elo és molt menor del que sembla i s'explica per la gran quantitat de taules al matx. (Alphazero va obtenir 57.45% dels punts vs 42.55% que va obtenir StockFish 8 [7]).

Referències

  1. 1,0 1,1 1,2 1,3 1,4 ; Hubert, Thomas; Schrittwieser, Julian «Mastering Chess and Shogi by Self-Play with a General Reinforcement Learning Algorithm» (en anglès). , 05-12-2017, p. 4-5 [Consulta: 7 desembre 2017].
  2. «Entire human chess knowledge learned and surpassed by DeepMind's AlphaZero in four hours» (en anglès). , 06-12-2017 [Consulta: 6 desembre 2017].
  3. «DeepMind’s AI became a superhuman chess player in a few hours, just for fun». , 06-12-2017 [Consulta: 6 desembre 2017].
  4. Alphazero, un avance muy significativo en la Inteligencia Artificial
  5. «Stockfish gana el Campeonato de módulos de ajedrez». chess.com, 18-11-2017. [Consulta: 7 desembre 2017].
  6. [enllaç sense format] https://www.chess.com/es/news/view/alphazero-stockfish-ajedrez
  7. [enllaç sense format] https://chess24.com/es/informate/noticias/la-impresionante-fuerza-de-alphazero

Enllaços externs

  • AlphaZero: Shedding new light on the grand games of chess, shogi and Go Arxivat 2019-08-01 a Wayback Machine.