Искусственный интеллект AlphaStar Впервые в истории ИИ победил в обычной, а не модифицированной версии онлайн-игры StarCraft II, сражаясь с людьми на условиях, в которых состязаются живые киберспортсмены. И последовательно добился высшего ранга «Грандмастера» в сражениях за каждую из трех рас: терранов, протосов и зергов.
Следующим вызовом стали игры с неполной информацией, вроде покера, и многопользовательские стратегии. Они для ИИ особенно сложны: нужно контролировать множество своих и вражеских юнитов, планировать бои минимум на несколько минут вперед, развивать свои базы, и уметь сочетать разные виды деятельности с мгновенным переключением между задачами. AlphaZero после череды экспериментов научился справляться с этой задачей, выигрывая в 95 % случаев. Но возникла новая проблема – ИИ не понимает саму игру, он действует дистанцируясь от процесса, из-за чего не способен эволюционировать по-настоящему.
Решение пришло с созданием системы AlphaStar, которая научилась «создавать трудности» самой себе. Здесь так же все построено на машинном обучении, но если раньше все агенты искусственного интеллекта имели цель разработать выигрышную стратегию, то теперь ИИ намеренно стал разделять себя на «ученика» и «тестеров». Последние во время тренировок стараются вскрыть как можно больше уязвимых мест противника, кроме того, отрабатывая подлые приемы, вроде сговора при игре в режиме «каждый за себя», игры в поддавки и т.д. Прокачавшись таким образом, AlphaStar бросил вызов сильнейшим игрокам в StarCraft, Дарио «TLO» Вуншу и Гжегожу «MaNa» Коминцу, и победил обоих.
Последним камнем преткновения оставался интерфейс. Люди играют, имея ограниченную скорость нажатия на кнопки, кликов мышкой, прокрутки экрана и обзора поля боя, они видят и оценивают наборы пикселей, а не готовые пакеты данных. Потребовалось более полугода, чтобы создать для AlphaStar подходящий механизм управления, после чего ИИ выпустили в Интернет, где он сражался с игроками-людьми в Battle.net, на реальных картах и в одинаковых с ними условиях. И достиг уровня 99,8 % побед, получив статус грандмастера во всех игровых расах.
Убедительное доказательство того, что универсальные алгоритмы машинного обучения такого типа могут использоваться для решения сложных реальных задач.