Мы используем cookie-файлы, чтобы получить статистику и обеспечивать вас лучшим контентом. Продолжая пользоваться нашим сайтом, вы соглашаетесь с использованием технологии cookie-файлов. Это совершенно безопасно!
Программа AI AlphaGo Zero за несколько часов самообучения стала лучшей в игре в шахматы, Го и японские шахматы

Программа AI AlphaGo Zero за несколько часов самообучения стала лучшей в игре в шахматы, Го и японские шахматы

Время прочтения:
Программе искусственного интеллекта AlphaGo Zero, разработанной подразделением DeepMind компании Google, потребовалось всего четыре часа времени игры самой с собой для того, чтобы достичь уровня игры, превосходящего уровень игры в шахматы любого человека или другой компьютерной программы. В матче из 100 игр программа AlphaGo Zero одержала победу со счетом 28:0 над программой Stockfish, которая уже достаточно давно является мировым чемпионом по шахматам среди компьютерных программ.
Процесс обучения программы AlphaGo Zero всегда начинается с нуля, в программу вводятся только базовые правила самой игры. После этого, программа начинает играть сама с собой, делая с начала самые случайные ходы. Через непродолжительное время программа начинает накапливать опыт и уровень ее игры заметно повышается. За 24 часа такого самообучения программа AlphaGo Zero приобрела "сверхчеловеческий" уровень игры в шахматы, Го и Сеги (японские шахматы), одержав каждый раз убедительную победу над другой программой, имеющей звание чемпиона мира среди компьютерных программ в данном виде.
Такая скорость и эффективность процесса самообучения стали результатом длительного подбора параметров работы и настроек искусственной нейронной сети, которая лежит в основе системы искусственного интеллекта. Подбор же некоторых других параметров возложен на саму программу и она выполняет эту задачу, используя метод оптимизации Байса. Единственным "искусственным" моментом в процессе самообучения является "шум" в виде набора случайных данных, который является тем, что толкает программу сделать первый ход и запустить процесс самообучения.
Самообучение программы AlphaGo Zero
Как уже упоминалось выше, перед началом процесса самообучения в программу вводятся все правила и базовые принципы игры. Интересным является то, что эти правила и допустимые действия кодируются в виде плоских (двухмерных) и трехмерных векторов.
Универсальность нового метода самообучения подтверждается тем, что при обучении программы AlphaGo Zero игре в шахматы, Го и Сеги использовался один и тот же набор стартовых параметров, настроек алгоритмов и архитектура нейронной сети. Каждый отдельный экземпляр программы AlphaGo Zero обучался какому-либо одному виду игры, и обычно процесс обучения укладывался в 700 тысяч ходов, сделанных программой. В данном процессе были задействованы мощности 5000 специализированных процессоров TPU первого поколения и 64 TPU-процессоров второго поколения.
Программа AlphaGo Zero выиграла в шахматы у программы Stockfish после 4 часов самообучения, в течении которых она сделала 300 тысяч ходов. В Сеги программа AlphaGo Zero одержала победу над программой Elmo после 2 часов и 110 тысяч сделанных ходов. А в Го программа AlphaGo Zero одержала победу над программой AlphaGo Lee после восьми часов и 165 тысяч ходов самообучения.
AlphaGo, Zero, DeepMind, Google, Искусственный, Интеллект, Самообучение, Игра, Шахматы, Го, Сеги, Stockfish, Elmo
Первоисточник
Другие новости по теме:
  • Система искусственного интеллекта AlphaGo одержала третью и окончательную п ...
  • Китайские исследователи в области ИИ собираются бросить вызов программе Goo ...
  • Более мощная версия программы AlphaGo самостоятельно достигла уровня соверш ...
  • Система искусственного интеллекта AlphaGo выиграла первый матч у мирового ч ...
  • Система искусственного интеллекта компании Google впервые победила человека ...


  • комментировать
    наверх