Dodano: 12 lipiec 2019r.

Sztuczna inteligencja pokonała zawodowych graczy w pokera w grze wieloosobowej

Algorytm o nazwie Pluribus pokonał zawodowych graczy w wieloosobowej grze Texas Hold'em bez limitu, najpopularniejszej na świecie formie pokera. Osiągnięcia sztucznej inteligencji coraz bardziej przybliżają ją do rozwiązywania skomplikowanych problemów w świecie rzeczywistym.

 

Algorytmy sztucznej inteligencji opracowane przez naukowców z Carnegie Mellon University we współpracy ze specjalistami z firmy Facebook pokonały czołowych profesjonalnych graczy w sześcioosobowym pokerze Texas Hold'em bez limitu. To pierwszy raz, gdy algorytmy pokonały elitarnych graczy w grze z więcej niż dwoma graczami. Dwa lata temu sztuczna inteligencja o nazwie Libratus ograła zawodowców w grze jeden na jeden.

Wśród pokonanych przez program Pluribus graczy znalazł się m.in. Darren Elias, do którego należą cztery tytuły World Poker Tour, czy Chris Ferguson, zwycięzca sześciu edycji World Series of Poker. Każdy zawodowiec oddzielnie rozegrał pięć tys. rozdań z pięcioma kopiami Pluribusa. W innym eksperymencie z udziałem 13 profesjonalistów, z których każdy wygrał w pokera ponad milion dolarów, Pluribus zagrał jednocześnie z pięcioma graczami, co dało w sumie 10 tys. rozdań. Tutaj także sztuczna inteligencja zwyciężyła.

 

Zespół badaczy stojący za opracowaniem Pluribus to ta sama grupa, która stworzyła Libratusa. W rzeczywistości Pluribus to udoskonalona wersja Libratusa, która potrzebuje znacznie mniej mocy obliczeniowej do rozgrywania partii.

- Wielu badaczy sztucznej inteligencji uważało, że jest to niemożliwe – powiedział Noam Brown z Carnegie Mellon University oraz z Facebook AI Research w Nowym Jorku, który pracował nad Pluribusem razem z Tuomasem Sandholmem z Carnegie Mellon University.

Inne sztuczne inteligencje, jak chociażby wspomniany Libratus czy opracowana przez Deep Mind SI grająca w grę „go” pokazały, że są nie do pobicia w rozgrywkach o sumie zerowej dla dwóch graczy. W tych scenariuszach zawsze jest jeden zwycięzca i jeden przegrany, a teoria gier oferuje dobrze zdefiniowaną najlepszą strategię.

Jednak teoria gier jest mniej pomocna w przypadku scenariuszy angażujących wiele stron o konkurencyjnych interesach, które odzwierciedlają większość wyzwań w rzeczywistym życiu. Rozpracowując pokera dla wielu graczy, Pluribus stanowi podstawę przyszłych SI służących do rozwiązywania złożonych problemów tego rodzaju. Jak przyznał Brown, ten sukces jest krokiem w kierunku zastosowań takich jak automatyczne negocjacje, lepsze wykrywanie oszustw czy samodzielne samochody.

Aby zmierzyć się z sześcioosobowym zespołem zawodowców w pokera, Brown i Sandholm radykalnie zmodyfikowali algorytm wyszukiwania Libratusa. Większość algorytmów stosowanych w takich rozgrywkach wyszukuje do przodu poprzez drzewa decyzyjne, aby uzyskać najlepszy ruch w danej sytuacji. Jednak złożoność wprowadzona przez dodatkowych graczy czyni tę taktykę niepraktyczną. Poker wymaga pracowania z ukrytymi informacjami - gracze muszą opracować strategię, rozważając, jakie karty mogą mieć ich przeciwnicy i co przeciwnicy mogą odgadnąć na temat ich własnych kart na podstawie licytacji. Większa liczba graczy sprawia, że wybór akcji w dowolnym momencie jest trudniejszy, ponieważ wiąże się z oceną większej liczby możliwości.

Wydaje się, że przełomem było opracowanie metody, która pozwoliła Pluribusowi na dokonanie dobrych wyborów sprawdzając tylko kilka ruchów do przodu, a nie wszystkich ruchów do końca rozgrywki.

Pluribus uczył się od zera poprzez rozgrywanie partii, sprawdzanie ich i poprawianie się z każdą nową partią. Program sprawdzał, które akcje wygrywają więcej pieniędzy. Po każdym rozdaniu spoglądał wstecz na to, jak grał i sprawdzał, czy zarobiłby więcej, gdyby zmienił strategię. Jeśli alternatywna taktyka doprowadziłaby do lepszych wyników, bardziej prawdopodobne, że właśnie ją stosował w przyszłości.

Po rozegraniu sam ze sobą milionów rozdań Puribus opracował strategię, którą stosował w meczach z profesjonalistami. W momencie podjęcia decyzji porównuje stan gry z planem i sprawdza kilka ruchów do przodu, aby zobaczyć, jak może przebiec akcja. Następnie decyduje, czy może to poprawić. A ponieważ sam nauczył się grać bez wkładu człowieka, opierał się na kilku strategiach, których ludzie nie używają.

Sukces Pluribusa zależy w dużej mierze od jego wydajności. Podczas gry w pokera funkcjonował tylko na dwóch jednostkach centralnych (CPU). W przeciwieństwie do tego, grająca w „go” SI korzystała z prawie dwóch tys. procesorów, a Libratus ze 100, gdy po raz pierwszy pokonał najlepszych graczy.

Gry okazały się świetnym sposobem na mierzenie postępu w rozwoju sztucznej inteligencji. Algorytmy mogą mierzyć się z najlepszymi ludźmi i jeśli triumfują, wiadomo, co zostało zmienione w porównaniu do wcześniejszych, mniej udanych wersji.

 

Źródło: Nature, fot. Pixabay