Facebook ha desarrollado una Inteligencia Artificial (IA) habilitada para jugar partidas de póquer de hasta seis participantes, y en varias pruebas ha logrado salir victorioso de forma consistente, por primera vez en un mecanismo del género, contra jugadores humanos profesionales.
Facebook ha anunciado que en colaboración con Carnegui Mellon han logrado crear el primer bot de inteligencia artificial capaz de jugar póquer en partidas de seis jugadores en la variedad Texas Hold’em, sin límites de apuesta. El bot se llama Pluribus y ha logrado ganar contra jugadores humanos de la talla de dos ganadores del World Series of Poker. Los descubrimientos de ambos creadores fueron publicados en la revista Science este jueves.
En los últimos años ha habido grandes avances en inteligencia artificial (IA), con juegos que a menudo sirven como desafíos, puntos de referencia e hitos para el progres. Mucho tiempo ha pasado desde que IBM con su Deep Blue fue capaz de ganar a Kaspárov. Más recientemente Google con su AlphaGoy posteriormente con su AlphaZero han conseguido el dominio absoluto en el juego oriental GO.
Lo más “preocupante” de todo es que ahora Facebook acaba de crear PLURIBUS, junto a la Carnegie Mellon University. Por primera vez, se ha logrado que la máquina venza en uno de estos juegos con más de dos jugadores, y llegando a los seis oponentes.
Aunque se acaba de publicar en Science una descripción del proceso seguido, Facebook no quiere compartir el código para no “destrozar” este juego… ni el negocio que hay montado tras él.
Se trata de uno de los primeros ejemplos de una IA desarrollada para jugar al póquer, un juego considerado como «un gran desafío» para la IA según sus creadores durante décadas debido a que implica información desconocida y estrategias distintas a las de otros juegos como el ajedrez o el go, como el uso de faroles.
Pluribus, una IA de póker creada por la Universidad Carnegie Mellon y Facebook, hace un gran farol contra jugadores profesionales … y gana. Cortesía: Facebook
Pluribus incorpora un nuevo algoritmo de búsqueda en línea que puede evaluar sus opciones de manera eficiente al buscar solo algunos movimientos hacia adelante en vez de hacia el objetivo final del juego. Pluribus también utiliza nuevos algoritmos de autojuego más rápidos para juegos con información oculta.
Estas innovaciones tienen implicaciones importantes más allá del póquer, porque las interacciones de suma cero de dos jugadores (en las que un jugador gana y otro pierde) son comunes en los juegos recreativos, pero son muy poco frecuentes en la vida real. Los escenarios del mundo real, como tomar medidas sobre contenido dañino y lidiar con los desafíos de la ciberseguridad, así como administrar una subasta en línea o navegar por el tráfico, generalmente involucran a múltiples actores y/o información oculta.
Los resultados del estudio «muestran que un algoritmo de IA cuidadosamente construido puede alcanzar un rendimiento mayor que el humano fuera de los juegos de suma cero para dos jugadores», según el investigador de la división de IA de Facebook Noam Brown.
De hecho, es la primera vez que un robot consigue vencer a jugadores profesionales en cualquier juego que tenga más de dos jugadores o de dos equipos. Los resultados se han producido tanto en dos modalidades: la primera, con cinco bots contra un humano, y la segunda, una IA contra cinco jugadores humanos.
La cantidad de información oculta a la hora de jugar póquer dificulta el desarrollo de inteligencia artificial en este terreno ya que entran en juego los faroles y el engaño donde el jugador deben hacer balance de cuando y como mentir o hacer un ‘bluff’. Debido a esto, utilizando las técnicas ya existentes en los juegos de dos personas, habría sido necesaria una potencia de computación 10.000 veces superior para adaptarlo al póquer, de seis.
¿Cómo ha entrenado Facebook a Pluribus?
Pluribus tiene una estrategia y un algoritmo elaborada basada en el autojuego, es decir, jugar sin factores humanos y mediante el cual ha calculado la probabilidad de la efectividad de sus jugadas teniendo en cuenta los movimientos que pueda seguir.
La IA juega inicialmente contra copias de sí misma, jugando de manera aleatoria, y con el tiempo acaba aprendiendo y determinando qué estrategias son las más efectivas en función de los movimientos anteriores de la partida.
En cada repetición de estas pruebas, el sistema elige a un jugador como el ‘atravesador’, actualizando su estrategia en cada partida. Las probabilidad de éxito de cada jugada se dilucidan preguntando al sistema qué está programado que hagan el resto de los jugadores robots en los próximos movimientos.
En siete horas de aprendizaje, Pluribus es capaz de mejorar el rendimiento del jugador humano medio, y después de 20 horas puede llegar a superar a jugadores humanos profesionales de póquer, sin necesidad de adaptar sus estrategias para cada tipo de jugador.
Para entrena estar herramienta, los investigadores de Facebook utilizaron durante ocho días un servidor de 64 núcleos que requirió un total de menos de 512 GB de RAM, sin emplearse unidades de procesamiento gráfico (GPU) en el proceso.
Partidas contra jugadores profesionales
Se llevaron a cabo dos experimentos para comprobar el rendimiento del bot Plribus: uno que consistía de un bot de IA contra cinco jugadores humanos y otro de un jugador humano contra cinco bots.
En la primera variante del experimento 13 jugadores, que habían ganado más de un millón de dólares cada uno profesionalmente, jugaron en contra de Pluribus en distintos grupos. El bot jugó contra cinco jugadores humanos a la vez durante 12 días y jugó 10.000 manos, con un premio de 50.000 dólares.
El resultado fueron cinco ciegas (‘big blinds’) por cada cien manos a favor de Pluribus. Esto equivale a que el bot ganó mil dólares por hora jugando contra cinco humanos, si cada ficha hubiese valido un dólar, más de lo que suelen ganar los jugadores profesionales contra amateurs y otros profesionales.
En la segunda prueba, con cinco IAs contra un humano, participaron Darren Elias y Chris «Jesus» Ferguson, dos campeones de póquer a nivel mundial, en competiciones como el Tour Mundial o la Serie Mundial de Poker, respectivamente.
A ambos jugadores se les ofreció 2.000 dólares para participar en el juego de Texas Hold’em. Además los jugadores podrían optar por un premio 2.000 dólares adicionales si rendían mejor contra el bot en comparación con el otro jugador humano. En este caso Pluribus venció a los jugadores con un promedio de 2,3 ciegas por cada cien manos.
Según uno de los jugadores que participaron en el experimento, Michael Gagliano, jugador de póker profesional, «hubo varias jugadas que los humanos simplemente no hacen en absoluto, especialmente en relación con su tamaño de apuesta».
«Pluribus logró un rendimiento sobrehumano en el póquer multijugador, que es un hito reconocido en inteligencia artificial y en teoría de juegos que ha estado abierto durante décadas», dijo Tuomas Sandholm , profesor de ciencias informáticas Angel Jordan, quien desarrolló Pluribus con Noam Brown , quien está terminando su doctorado en el Departamento de Ciencias de la Computación de Carnegie Mellon como investigadora científica en Facebook AI. «Hasta ahora, los hitos sobrehumanos de la inteligencia artificial en el razonamiento estratégico se han limitado a la competencia de dos partidos. La capacidad de vencer a otros cinco jugadores en un juego tan complicado abre nuevas oportunidades para utilizar la inteligencia artificial para resolver una amplia variedad de problemas del mundo real».