Las máquinas ya saben marcarse un farol y ganar al póquer

1 post / 0 new
Imagen de fiarme
Las máquinas ya saben marcarse un farol y ganar al póquer

Desarrollado en colaboración con Facebook, el programa Pluribus ha logrado por primera vez vencer a los humanos en partidas complejas de Texas Hold'em con seis jugadores

Los sistemas de inteligencia artificial (IA) siguen refinando sus capacidades y superando etapas. Más de 20 años después de que Deep Blue batiese a Garry Kásparov, las máquinas han derrotado a los mejores jugadores del mundo en una amplia variedad de retos. Pero el póquer era, hasta ahora, uno de los pocos que se les resistía. Investigadores de la Universidad Carnegie Mellon de Pittsburgh han diseñado un programa de IA que ha sido capaz de dominar a los mejores profesionales en varias series de partidas de Texas Hold'em de seis jugadores, la variedad más popular en todo el mundo. Los detalles se describen este jueves en la revista Science.

El póquer cuenta con una dificultad para la aplicación de IA que otros juegos como el ajedrez no tienen. Se trata de un escenario de 'información asimétrica'; dado que algunas de las cartas sobre la mesa permanecen cubiertas, el jugador sólo puede conocer una parte de lo que está sucediendo. Así que para ganar necesita interpretar o intuir el comportamiento de los otros jugadores, lo que incluye identificar cuándo un rival se está marcando un farol. Y engañarle con faroles propios. En concreto el Texas Hold'em en su versión multijugador es una variante especialmente compleja, ya que los participantes desarrollan estrategias de apuestas que siguen a lo largo de decenas de manos.

Según explican los investigadores, la combinación de sistemas de aprendizaje reforzado con nuevos algoritmos ha sido clave para que la máquina pueda superar a los humanos. Bautizado como Pluribus y desarrollado en colaboración con Facebook, el sistema descubre cómo ganar jugando una y otra vez contra sí mismo. "Hasta ahora, los grandes logros de la IA sobrehumana en materia de razonamiento estratégico se habían limitado a competiciones de dos jugadores", señala Tuomas Sandholm, profesor de informática en la universidad norteamericana. "Pero la capacidad de vencer a otros cinco jugadores en un juego tan complejo abre nuevas oportunidades de utilizar IA para resolver una amplia variedad de problemas del mundo real".

Innovar para ganar

Para la primera ronda de apuestas Pluribus esboza una estrategia en base a partidas simuladas que juega contra seis copias de sí mismo. A partir de ese momento, realiza búsquedas más detalladas de posibles movimientos para cada etapa del juego. La diferencia con anteriores versiones es que, aunque planea con varias manos de antelación, no elabora una simulación hasta el fin de la partida, como puede ocurrir con el ajedrez o el Go, dado que en el póquer la cantidad de variables es inabarcable.

De hecho, los algoritmos de Pluribus han desarrollado algunos reflejos que sorprenden incluso a sus creadores. La mayoría de los jugadores de póquer profesionales evitan un tipo de apuestas (llamadas donk bets, en argot) que en apariencia son ilógicas. Su único objetivo es desestabilizar a los jugadores que dominan una mano, pero son raras en los jugadores consagrados. Sin embargo Pluribus las utiliza con relativa frecuencia. "Su mayor fortaleza es su habilidad para usar estrategias mixtas", ha declarado Darren Elias, jugador que posee el récord de títulos del World Poker Tour y uno de los rivales derrotados por Pluribus. "Es lo mismo que intentamos hacer los humanos, pero para nosotros hay un problema de ejecución; hacer esto de una manera perfectamente aleatoria y de manera consistente es muy complicado".

Para ganar, los sistemas de IA suelen adoptar un modelo que en teoría de juegos se llama equilibrio de Nash o equilibrio del miedo. Se trata de un marco que asume que los jugadores están aplicando su mejor estrategia y que ambos conocen la táctica del oponente,. Sin embargo en un escenario multijugador, ésta puede no ser eficaz, así que Pluribus crea otras estrategias que le permiten superar sistemáticamente a todos sus oponentes. Un aspecto que podría aplicarse a negociaciones complejas en escenarios reales, por ejemplo. Según los científicos, el algoritmo sólo necesita considerar cinco posibles movimientos para cada oponente, antes de diseñar su propia estrategia general.

Faroles de IA

Por otra parte Pluribus sabe que para ganar en el póquer también se necesita ser impredecible. Si un jugador apuesta únicamente cuando tiene la mejor mano posible, los oponentes rápidamente identifican la tendencia. Así que la IA no sólo calcula las probabilidades de cada mano, sino que además equilibra su comportamiento general para desestabilizar a los rivales, lo que le lleva a marcarse faroles, como cualquier otro jugador.

En 2017, Libratus -un programa de Inteligencia Artificial creada por el propio Sandholm y su equipo- ya derrotó a los mejores jugadores del mundo en un torneo de 20 días, en una versión de Texas Hold'em para dos jugadores. "Jugar a un juego de seis jugadores en lugar de enfrentarse cara a cara requiere cambios fundamentales en la forma en que la IA desarrolla su estrategia de juego", explica Noam Brown, estudiante de doctorado en el Departamento de Ciencias de la Computación de Carnegie Mellon e investigador de IA para Facebook. "De hecho, creemos que algunas de las estrategias de juego de Pluribus podrían incluso cambiar la forma en la que juegan los profesionales".

Libratus (un software creado en la Carnegie Mellon) ya arrasó a los jugadores humanos

El Casino Rivers de Pittsburgh (Estados Unidos) ha sido el escenario del reto Cerebros vs. Inteligencia artificial, una competición que enfrentó a un software de inteligencia artificial (IA) capaz de jugar al popular póker sin límite de Texas (Texas Hold’em) contra cuatro profesionales de las mesas de juego. El resultado fue inapelable: el algoritmo de Libratus —el nombre que recibe la IA— desmoralizó, vapuleó y finalmente humilló a los cerebros humanos.

El torneo tuvo una duración de 20 días, con sesiones de 11 horas diarias, totalizando 120.000 rondas de póker. La variante del juego elegida, mano-a-mano, enfrentaba a los profesionales contra Libratus, uno por uno. Las rondas comenzaban con 20.000 dólares por jugador en forma de fichas (virtuales) con las que apostar.

Cuando terminó el torneo, Libratus había ganando un total de 1,7 millones de dólares de los dos millones que había en juego. Los participantes se repartieron entonces 200.000 dólares (esta vez reales) según su clasificación en el torneo y las fichas que habían conseguido.

Previamente se había acordado cómo valorar el resultado: se consideraría que la victoria sería "matemáticamente significativa" dependiendo de las cifras alcanzadas. Los organizadores del torneo pudieron afirmar con una certeza del 99,7 por ciento que el resultado "no se había debido al puro azar".

Los creadores de Libratus son Tuomas Sandholm, profesor del departamento de informática y Noam Brown, un estudiante de doctorado de la universidad Carnegie Mellon de Pittsburgh. Contaron además con los recursos de Bridges, un superordenador del Centro de Supercomputación de Pittsburgh. Sandholm llevaba doce años estudiando teoría de juegos aplicada al póker y sus estrategias antes de este logro.

Un juego de naipes sencillo y popular

De los cientos de variantes que hay del póker se eligió para el torneo tal vez la más popular, el denominado Hold’em. La mejor forma de apreciarlo es quizá el largometraje Rounders (1998, John Dahl) donde se explica y disfruta a la vez – especialmente en lo relativo a la estrategia y las apuestas.

En el Hold’em cada jugador recibe dos cartas y en la mesa se muestran otras tres bocarriba, luego una cuarta y finalmente una quinta. Se van haciendo rondas de apuestas a medida que avanza el juego. La mano de cada jugador viene dada por las cartas que tenga en su poder y cualquier combinación con las cartas comunitarias. Terminadas las apuestas –y si los contrincantes no se retiran– la mejor combinación de cartas propias y comunes gana. El hecho de que haya varias rondas de apuestas donde se puede pasar, apostar, ver, retirarse o subir y que la calidad de la mano de cada jugador pueda variar a mejor o peor según aparecen nuevas cartas de mayor interés al juego.

En las mesas de Hold’em pueden participar entre dos y más de diez jugadores. Hay variantes de todo tipo: según el valor de las apuestas obligatorias antes de empezar ("ciegas"), las apuestas mínimas y otros detalles, pero lo más importante son los límites. En algunas versiones hay una cantidad máxima por apuesta; en otras el único límite es el dinero que tengan como máximo los demás jugadores. (En torneos como el World Series of Poker el momento cumbre es precisamente cuando los jugadores "van con todo" y apuestan millones).

Los algoritmos de la tería de juegos

En las últimas décadas hemos visto ordenadores programados con algoritmos invencibles para jugar y triunfar frente a los mejores jugadores humanos en las damas (1995), el Othello (1997), el ajedrez (Kaspárov vs. Deep Blue, 1997) y el considerado intratable Go (AlphaGo vs. Fan Hui, 2016).

Sin embargo, hay una gran diferencia entre el póker y todos ellos: según la teoría de juegos matemática los primeros son juegos de información perfecta y el póker no lo es. Ese término se aplica cuando ambos jugadores tienen toda la información sobre el estado del juego (piezas, turnos, apuestas, historial y demás).

Las posibles jugadas pueden ser muchas, una cifra astronómicamente grande, pero en el ajedrez no hay información oculta ni influye el azar en lo que pueda suceder. En el póker, en cambio, las cartas de los jugadores son un misterio hasta que termina cada ronda; además es el azar quien elige las cartas precisas que recibirá cada jugador.

El juego de las damas se resolvió matemáticamente (con una estrategia precisa al cien por cien) porque solo hay unas 1020 posiciones diferentes en el tablero y se pudieron generar y examinar todas. Se ha calculado que hay unas 10120 posiciones posibles de ajedrez –y ni siquiera se han podido examinar todas, pero en el Hold’em se cree que puede haber unas 10160 opciones en total en las diversas fases del juego, una diferencia exponencial y abismalmente grande, fuera de toda capacidad de computación actual.

El problema computacional del Hold’em con límite ya se resolvió en 2015, de modo que en esta ocasión se intentaba llegar más allá. La variante elegida, el mano-a-mano entre dos jugadores (IA vs. humano) resultó práctico de cara a un torneo, pero no tan interesante como una solución genérica, pero computacionalmente mucho más compleja, para un mayor número de jugadores, que es lo habitual en las salas de los casinos o de Internet.

Apostar. calcular, 'echarse faroles' y otras tácticas

Naturalmente, el póker (como el mus) es divertido porque hay que saber apostar, echarse faroles y utilizar todo tipo de tácticas matemáticas o a veces "psicológicas" para obtener ventajas. La biblia sagrada del juego es The Theory of Poker, un libro de 1999 de David Sklansky donde se analiza el juego desde todos esos puntos de vista. Quien aspire a jugar bien ha de pasar por sus páginas obligatoriamente.

Apostar sin tener buenas cartas ("echarse un farol", en el argot) o hacerlo comedidamente a pesar de llevar un buen juego para dejar que los demás se confíen son actitudes aparentemente humanas e inimitables. ¿Puede un ordenador copiar estas estrategias? Una forma rudimentaria es variar aleatoriamente la táctica, pero esto tiene el problema de que si se adivina la frecuencia es fácil aprovecharse de ello para vencer al contrincante.

En el caso de Libratus el software se diseñó para evitar errores tácticos presentes en versiones anteriores que habían sido derrotadas por los humanos. La versión anterior de 2015, llamada Claudico, empleaba una estrategia muy "extrema y radical" en las apuestas, cuyas pautas adivinaron rápidamente sus oponentes.

Según Sandholm, su creador, a Libratus primero se le enseñan las reglas del juego y luego se le permite desarrollar y probar estrategias. 15 millones de horas de computación después el resultado es que el algoritmo ha aprendido de los resultados de sus propios cálculos, sin necesidad de utilizar la experiencia de los humanos (como en el caso del ajedrez con las aperturas y valoraciones de posiciones). Durante las partidas, además, Libratus podía calcular anticipadamente todo lo que podría suceder en la tercera y cuarta ronda de apuestas: qué cartas podrían salir, cuánto sería conveniente apostar, cómo responder ante un desafío, etcétera.

Increíblemente, nadie ha enseñado a Libratus a tirarse faroles: surgieron por sí mismos como parte de las estrategias probadas durante su aprendizaje automático. Según explicaron, esto le permitió entender que también los contrarios podrían farolear – y a actuar teniendo esto en cuenta.

Según los humanos a los que se enfrentó, la destreza de Libratus a la hora de elegir el tamaño de las apuestas con gran precisión y a ser más conservador y no arriesgar en las últimas rondas del día fueron algunas de las cosas que más les sorprendieron. Quizá por eso su nombre en latín se traduce al castellano como "equilibrado".

Un torneo peculiar

Enfrentar a humanos y ordenadores a cualquier juego a la vista de todo el mundo no es tarea fácil. Cada jugador participaba en las rondas frente a una pantalla conectada de forma remota con Libratus en el centro de supercomputación. Al mismo tiempo, todo se veía en grandes pantallas en la sala y podía seguirse a través de Twitch, la plataforma de retransmisión de videojuegos.

Los jugadores tenían permitido reunirse tras cada sesión para intercambiar información y acordar estrategias (algo que normalmente no sucede entre humanos, pero que les daba cierta ventaja frente a la máquina). Y vaya si lo hicieron. Hasta se entretuvieron en el popular foro Reddit para una sesión de preguntas y respuestas. Sin embargo, no encontraron vulnerabilidades fáciles de aprovechar en el algoritmo y algunos de los que creyeron detectar parecían desaparecer al día siguiente. ¿Cómo era posible?

Libratus también podía "pensar" una vez terminada la jornada. De este modo examinaba lo sucedido, añadía 6.000 nuevas rondas con datos reales sobre cada jugada y afinaba la estrategia. Dicen que parecía más preocupado en corregir sus propios errores que en aprovechar los de los contrarios (algo que otros programas han intentado sin éxito). Armado con este nuevo conocimiento, comenzaba un nuevo día sin cansancio.

Al final del torneo los jugadores humanos, profesionales con muchos años de torneos a sus espaldas, estaban destrozados anímicamente, preguntándose cómo habían podido ser vencidos. De hecho, las casas de apuestas deportivas daban una ventaja inicial de 4 a 1 a favor de los humanos, de modo que quienes apostaron por la inteligencia artificial hicieron buen negocio.

Los límites de Libratus todavía se desconocen, pero al igual que en otros juegos como el ajedrez, tal y como apuntó Jason Kottke, es probable que "un humano trabajando junto con una inteligencia artificial como Libratus fuera superior a cualquiera de ellos individualmente."

Otras aplicaciones de mayor enjundia

Quizá lo más interesante de este avance en inteligencia artificial es la idea de que el algoritmo con la estrategia sea independiente del juego. De hecho, dice su creador, bastaría cambiar el módulo con las reglas del juego por otro para que se pudieran desarrollar nuevas estrategias. Y no solo en el terreno de los juegos de casino.

Algunos equivalentes matemáticos en el mundo real en los que se aplica la teoría de juegos son las subastas, las negociaciones, la seguridad informática o la estrategia militar. Situaciones todas ellas en las que se maneja información incompleta (qué va a hacer la otra parte, hasta dónde están dispuestos a pujar, quién es el primero en lanzar una bomba) y donde ha de tenerse en cuenta el factor de la incertidumbre.

¿Hay vida para el póker a partir de ahora?

Kaspárov perdió contra una máquina, pero la gente sigue jugando al ajedrez. También se sigue jugando a las damas, al Othello, al Go y a los demás juegos. En el caso de Libratus, su victoria ha sido aplastante, pero no completa: la versión del póker en la que ha ganado era únicamente de tipo mano-a-mano entre dos jugadores, no en mesas completas con 6, 10 o más personas. Los expertos dicen que esa complejidad a día de hoy es computacionalmente inalcanzable.

Muchos se preguntan si no sería un buen negocio "disfrazar" a Libratus y ponerlo a jugar en las salas de juego online contra los humanos, con dinero de verdad. El hecho de que necesite una gran capacidad de computación entre bambalinas (básicamente, un superordenador) lo hace impracticable, así que pueden estar tranquilos: no sería ni fácil ni rentable a día de hoy.

Sin embargo, a muchos jugadores les preocupa si llegará algún día en el que los programadores preparen bots para desplumar a los demás jugadores, haciéndose pasar por humanos en las mesas de juego. Es algo que bien podría suceder y en lo que trabajan de forma discreta diversas empresas de software. Pero hace una década que existen y no ha pasado de ser algo anecdótico. De hecho, algunos conocidos casos de fraude por parte de casinos online se llevaron a cabo con métodos mucho más rudimentarios.

Sin duda sería otro de los retos prácticos de la inteligencia artificial, una especie de test de Turing pero con dinero contante y sonante en forma de premio.

Las máquinas ya saben marcarse un farol y ganar al póquer