AlphaZero de DeepMind bat les meilleures IA aux échecs, go et shogi

Il n’a fallu que quelques heures à la nouvelle intelligence artificielle développée par DeepMind pour vaincre les meilleurs logiciels spécialisés dans les échecs, le shogi et le jeu de go. Le tout en ne connaissant au départ que les règles de base.

AlphaZero de DeepMind bat les meilleures IA aux échecs, go et shogi

Après avoir vaincu les humains aux jeux d’échecs et de go, DeepMind (filiale d’Alphabet Google) vient de faire une nouvelle démonstration de force avec une intelligence artificielle capable de battre ses homologues les plus performantes dans ces disciplines.

AlphaZero, c’est son nom, a appris à jouer aux échecs, au go et shogi (échecs japonais) à partir des règles de base et sans aucune intervention humaine. Utilisant des réseaux neuronaux profonds, AlphaZero a rapidement appris chaque jeu pour « devenir le joueur le plus fort de l’histoire ».

DeepMind a présenté ses travaux sur AlphaZero dans un article scientifique publié dans la revue Science. On y apprend que le programme a été opposé aux meilleurs IA du monde pour trois jeux de réflexion :

  • Stockfish, une IA championne du monde d’échecs ;
  • Elmo, vainqueur du 27ème championnat du monde de shogi Informatique en 2017 ;
  • AlphaGo Zero, l’IA de DeepMind développée pour le jeu de go qui s’est imposée face aux meilleurs joueurs mondiaux.

Dans chaque cas, AlphaZero n’a reçu que la connaissance des règles de base du jeu. Il a commencé à s’entrainer en jouant des millions de parties contre lui-même, testant d’abord des tactiques aléatoires qu’il a peu à peu affinées en pratiquant un apprentissage par renforcement, une technique d’apprentissage automatique actuellement très en utilisée par les chercheurs en IA.

AlphaZero est un ogre en termes de puissance de calcul

Le processus d’entraînement et d’apprentissage a duré neuf heures pour les échecs, 12 heures pour le shogi et 13 jours pour le go, impliquant 5 000 TPU (Tensor processing unit, circuit intégré dédié à l’IA développé par Google). À titre de référence, une seule unité TPU peut traiter plus de 100 millions de photos par jour dans Google Photos. Autrement dit, AlphaZero est un ogre en termes de puissance de calcul. Une fois sa formation terminée, AlphaZero s’est attaqué à ses homologues et les a pulvérisés.

L’originalité de l’étude réside dans le fait que l’algorithme d’apprentissage a été combiné à une « méthode de recherche » appelée recherche arborescente Monte Carlo. Cette méthode est très utilisée pour former les IA à la prise de décision dans le jeu de go. L’équipe de DeepMind a utilisé ce même système pour les échecs et le shogi, montrant qu’il pouvait être adapté à d’autres jeux complexes.

Le plus surprenant pour les joueurs d’échecs humains est le fait qu’AlphaZero a mis en œuvre des stratégies et des idées jamais été vues auparavant. Son style agressif et son jeu très dynamique ont surpris le grand maître Matthew Sadler, qui en a fait un commentaire sur le blog de DeepMind. Ces capacités uniques font d’AlphaZero un excellent outil d’enseignement pour les joueurs d’échecs.

à lire aussi

 

Rejoignez la conversation