Политика

Изкуствен интелект на DeepMind побеждава експерти в сложната игра Stratego

Роботите с изкуствен интелект, които играят игри и взаимодействат с реални опоненти, полагат важна основа в науката за AI.

Поредната игра, отдавна смятана за изключително трудна за овладяване от изкуствения интелект, беше успешно усъвършенствана от машините. Изкуствен интелект, наречен DeepNash и създаден от небезизвестната компания DeepMind, е достигнал до нивото на истинските играчи в Stratego – настолна игра, която изисква сериозно стратегическо мислене в съчетание с несъвършена информация.

Настолните игри и игрите с карти са мярка за напредъка в областта на ИИ през последните няколко години. Роботите за игри ни позволяват да измерваме как хората и машините се развиват и си взаимодействат в контролирана среда. За разлика от шаха и древната китайска игра Го, Stratego е игра с несъвършена информация, подобна на покера, където играчите не могат да видят фигурите на опонента си. Всеки от играчите поставя на дъската пред себе си по 40 фигури, които трябва да придвижи и да елиминира тези на противника с цел да плени флага му. Играта има 10 535 възможни хода и 1066 възможни отварящи позиции, което я прави по-комплексна и непредвидима от другите настолни игри, в които роботите вече доказаха уменията си.

„Сложността в броя на възможните резултати в Stratego означава, че алгоритми, които се представят добре при игри с пълна информация, а дори и тези, които работят в покера, не могат да се приложат тук“, казва една от изследователите на DeepMind Жулиен Перолат. Тази сложност означава, че дори успешно използваната до момента AI техника, наречена „търсене в дървото на играта“, за овладяване на игри с перфектна информация, не е достатъчно мащабируема за Stratego. Поради тази причина новият изкуствен интелект възприема друг подход отвъд търсенето в дървото на игрите.

deepmind-02Алгоритъмът, създаден от DeepMind, носи името DeepNash, което е препратка към прочутия американски математик Джон Наш и неговия труд в теорията на игрите Nash equilibrium (Равновесие на Наш). То представлява голям набор от стратегии, които могат да бъдат следвани от всички участници в една игра, така че нито един от тях да не може да се възползва самостоятелно от промяната в стратегията. Така игрите могат да имат нула, едно или много на брой равновесия на Наш.

Играта на Stratego изисква умения за блъфиране, тактика и събиране на информация. Това е игра с нулева сума, тоест всяка победа за единия играч представлява загуба от същия мащаб за неговия опонент. DeepNash комбинира алгоритъм за подсилващо обучение с дълбока невронна мрежа, за да намери Равновесие на Наш в играта на Stratego. Обучението с подсилване (reinforcement-learning) включва намирането на най-добрата политика за вземане на решение и извършване на ход във всяко едно състояние на играта. За да открие най-оптимална политика на действие, DeepNash е изиграл 5,5 милиарда игри срещу себе си. В крайна сметка, след милиардите изиграни партии, DeepNash се доближава до Равновесието на Наш. Това показва съвсем нов подход на оптимизация за разлика от останалите роботи за игри, които се фокусират върху изучаването на структурата на играта и възможните ходове.

deepmindВ продължение на две седмици DeepNash се състезава с истински играчи на Stratego в платформа за онлайн игри. След 50 мача, DeepNash се класира на трето място сред всички играчи на Stratego от 2002 г. насам. „Нашата работа показва, че такава сложна игра като Stratego, включваща несъвършена информация, не изисква техники за търсене, за да бъде разгадана“, казва Карл Туйлс от екипа на DeepMind. „Това е наистина голяма крачка напред в науката за Изкуствен интелект.“

Въпреки че DeepNash е разработен конкретно за играта на Stratego, иновативният му метод на действие може да бъде директно приложен към други игри с нулева сума за двама играчи с перфектна или несъвършена информация. Освен това, алгоритъмът има потенциала да се справи с много по-мащабни проблеми от реалния свят, които често се характеризират с несъвършена информация. Създателите на DeepNash се надяват откритието им да намери напълно практично приложение в ситуации с много участници и непълна информация, като например оптимизация при управлението на трафика.
“Създавайки обобщаваща AI система, която е стабилна в условията на несигурност, ние се надяваме да пренесем възможностите за решаване на проблеми в нашия присъщо непредсказуем свят.”

Непременно вижте и това:

Вашият коментар

Вашият имейл адрес няма да бъде публикуван. Задължителните полета са отбелязани с *

Back to top button