Libratus, un software creado en la Carnegie Mellon, arrasó a los jugadores humanos.
El Casino Rivers de Pittsburgh (Estados Unidos) ha sido el escenario del reto Cerebros vs. Inteligencia artificial, una competición que enfrentó a un software de inteligencia artificial (IA) capaz de jugar al popular póker sin límite de Texas (Texas Hold’em) contra cuatro profesionales de las mesas de juego. El resultado fue inapelable: el algoritmo de Libratus —el nombre que recibe la IA— desmoralizó, vapuleó y finalmente humilló a los cerebros humanos.
El torneo tuvo una duración de 20 días, con sesiones de 11 horas diarias, totalizando 120.000 rondas de póker. La variante del juego elegida, mano-a-mano, enfrentaba a los profesionales contra Libratus, uno por uno. Las rondas comenzaban con 20.000 dólares por jugador en forma de fichas (virtuales) con las que apostar.
Cuando terminó el torneo, Libratus había ganando un total de 1,7 millones de dólares de los dos millones que había en juego. Los participantes se repartieron entonces 200.000 dólares (esta vez reales) según su clasificación en el torneo y las fichas que habían conseguido.
Previamente se había acordado cómo valorar el resultado: se consideraría que la victoria sería “matemáticamente significativa” dependiendo de las cifras alcanzadas. Los organizadores del torneo pudieron afirmar con una certeza del 99,7 por ciento que el resultado “no se había debido al puro azar”.
Los creadores de Libratus son Tuomas Sandholm, profesor del departamento de informática y Noam Brown, un estudiante de doctorado de la universidad Carnegie Mellon de Pittsburgh. Contaron además con los recursos de Bridges, un superordenador del Centro de Supercomputación de Pittsburgh. Sandholm llevaba doce años estudiando teoría de juegos aplicada al póker y sus estrategias antes de este logro.
Un juego de naipes sencillo y popular
De los cientos de variantes que hay del póker se eligió para el torneo tal vez la más popular, el denominado Hold’em. La mejor forma de apreciarlo es quizá el largometraje Rounders (1998, John Dahl) donde se explica y disfruta a la vez – especialmente en lo relativo a la estrategia y las apuestas.
En el Hold’em cada jugador recibe dos cartas y en la mesa se muestran otras tres bocarriba, luego una cuarta y finalmente una quinta. Se van haciendo rondas de apuestas a medida que avanza el juego. La mano de cada jugador viene dada por las cartas que tenga en su poder y cualquier combinación con las cartas comunitarias. Terminadas las apuestas –y si los contrincantes no se retiran– la mejor combinación de cartas propias y comunes gana. El hecho de que haya varias rondas de apuestas donde se puede pasar, apostar, ver, retirarse o subir y que la calidad de la mano de cada jugador pueda variar a mejor o peor según aparecen nuevas cartas de mayor interés al juego.
Con la versión Hold’em pueden participar entre dos y más de diez jugadores. Hay variantes de todo tipo: según el valor de las apuestas obligatorias antes de empezar (“ciegas”), las apuestas mínimas y otros detalles, pero lo más importante son los límites. En algunas versiones hay una cantidad máxima por apuesta, en otras el único límite es el dinero que tengan como máximo los demás jugadores. (Durante el World Series of Poker el momento cumbre es precisamente cuando los jugadores “van con todo” y apuestan millones).
Los algoritmos de la teoría de juegos
En las últimas décadas hemos visto ordenadores programados con algoritmos invencibles para jugar y triunfar frente a los mejores jugadores humanos en las damas (1995), el Othello (1997), el ajedrez (Kaspárov vs. Deep Blue, 1997) y el considerado intratable Go (AlphaGo vs. Fan Hui, 2016).
Sin embargo, hay una gran diferencia entre el póker y todos ellos: según la teoría de juegos matemática los primeros son juegos de información perfecta y el póker no lo es. Ese término se aplica cuando ambos jugadores tienen toda la información sobre el estado del juego (piezas, turnos, apuestas, historial y demás).
Las posibles jugadas pueden ser muchas, una cifra astronómicamente grande, pero en el ajedrez no hay información oculta ni influye el azar en lo que pueda suceder. En el póker, en cambio, las cartas de los jugadores son un misterio hasta que termina cada ronda; además es el azar quien elige las cartas precisas que recibirá cada jugador.
El juego de las damas se resolvió matemáticamente (con una estrategia precisa al cien por cien) porque solo hay unas 1020 posiciones diferentes en el tablero y se pudieron generar y examinar todas. Se ha calculado que hay unas 10120 posiciones posibles de ajedrez –y ni siquiera se han podido examinar todas, pero en el Hold’em se cree que puede haber unas 10160 opciones en total en las diversas fases del juego, una diferencia exponencial y abismalmente grande, fuera de toda capacidad de computación actual.
El problema computacional del Hold’em con límite ya se resolvió en 2015, de modo que en esta ocasión se intentaba llegar más allá. La variante elegida, el mano-a-mano entre dos jugadores (IA vs. humano) resultó práctico de cara a un torneo, pero no tan interesante como una solución genérica, pero computacionalmente mucho más compleja, para un mayor número de jugadores, que es lo habitual en las salas de los casinos o de Internet.
Apostar, calcular, “echarse faroles” y otras tácticas
Naturalmente, el póker (como el mus) es divertido porque hay que saber apostar, echarse faroles y utilizar todo tipo de tácticas matemáticas o a veces “psicológicas” para obtener ventajas. La biblia sagrada del juego es The Theory of Poker, un libro de 1999 de David Sklansky donde se analiza el juego desde todos esos puntos de vista. Quien aspire a jugar bien ha de pasar por sus páginas obligatoriamente.
Apostar sin tener buenas cartas (“echarse un farol”, en el argot) o hacerlo comedidamente a pesar de llevar un buen juego para dejar que los demás se confíen son actitudes aparentemente humanas e inimitables. ¿Puede un ordenador copiar estas estrategias? Una forma rudimentaria es variar aleatoriamente la táctica, pero esto tiene el problema de que si se adivina la frecuencia es fácil aprovecharse de ello para vencer al contrincante.
En el caso de Libratus el software se diseñó para evitar errores tácticos presentes en versiones anteriores que habían sido derrotadas por los humanos. La versión anterior de 2015, llamada Claudico, empleaba una estrategia muy “extrema y radical” en las apuestas, cuyas pautas adivinaron rápidamente sus oponentes.
Según Sandholm, su creador, a Libratus primero se le enseñan las reglas del juego y luego se le permite desarrollar y probar estrategias. 15 millones de horas de computación después el resultado es que el algoritmo ha aprendido de los resultados de sus propios cálculos, sin necesidad de utilizar la experiencia de los humanos (como en el caso del ajedrez con las aperturas y valoraciones de posiciones). Durante las partidas, además, Libratus podía calcular anticipadamente todo lo que podría suceder en la tercera y cuarta ronda de apuestas: qué cartas podrían salir, cuánto sería conveniente apostar, cómo responder ante un desafío, etcétera.
Increíblemente, nadie ha enseñado a Libratus a tirarse faroles: surgieron por sí mismos como parte de las estrategias probadas durante su aprendizaje automático. Según explicaron, esto le permitió entender que también los contrarios podrían farolear – y a actuar teniendo esto en cuenta.
Según los humanos a los que se enfrentó, la destreza de Libratus a la hora de elegir el tamaño de las apuestas con gran precisión y a ser más conservador y no arriesgar en las últimas rondas del día fueron algunas de las cosas que más les sorprendieron. Quizá por eso su nombre en latín se traduce al castellano como “equilibrado”.
Un torneo peculiar
Enfrentar a humanos y ordenadores a cualquier juego a la vista de todo el mundo no es tarea fácil. Cada jugador participaba en las rondas frente a una pantalla conectada de forma remota con Libratus en el centro de supercomputación. Al mismo tiempo, todo se veía en grandes pantallas en la sala y podía seguirse a través de Twitch, la plataforma de retransmisión de videojuegos.
Los jugadores tenían permitido reunirse tras cada sesión para intercambiar información y acordar estrategias (algo que normalmente no sucede entre humanos, pero que les daba cierta ventaja frente a la máquina). Y vaya si lo hicieron. Hasta se entretuvieron en el popular foro Reddit para una sesión de preguntas y respuestas. Sin embargo, no encontraron vulnerabilidades fáciles de aprovechar en el algoritmo y algunos de los que creyeron detectar parecían desaparecer al día siguiente. ¿Cómo era posible?
Libratus también podía “pensar” una vez terminada la jornada. De este modo examinaba lo sucedido, añadía 6.000 nuevas rondas con datos reales sobre cada jugada y afinaba la estrategia. Dicen que parecía más preocupado en corregir sus propios errores que en aprovechar los de los contrarios (algo que otros programas han intentado sin éxito). Armado con este nuevo conocimiento, comenzaba un nuevo día sin cansancio.
Al final del torneo los jugadores humanos, profesionales con muchos años de torneos a sus espaldas, estaban destrozados anímicamente, preguntándose cómo habían podido ser vencidos. De hecho, las casas de apuestas deportivas daban una ventaja inicial de 4 a 1 a favor de los humanos, de modo que quienes apostaron por la inteligencia artificial hicieron buen negocio.
Los límites de Libratus todavía se desconocen, pero al igual que en otros juegos como el ajedrez, tal y como apuntó Jason Kottke, es probable que “un humano trabajando junto con una inteligencia artificial como Libratus fuera superior a cualquiera de ellos individualmente.”
Otras aplicaciones de mayor enjundia
Quizá lo más interesante de este avance en inteligencia artificial es la idea de que el algoritmo con la estrategia sea independiente del juego. De hecho, dice su creador, bastaría cambiar el módulo con las reglas del juego por otro para que se pudieran desarrollar nuevas estrategias. Y no solo en el terreno de los juegos de casino.
Algunos equivalentes matemáticos en el mundo real en los que se aplica la teoría de juegos son las subastas, las negociaciones, la seguridad informática o la estrategia militar. Situaciones todas ellas en las que se maneja información incompleta (qué va a hacer la otra parte, hasta dónde están dispuestos a pujar, quién es el primero en lanzar una bomba) y donde ha de tenerse en cuenta el factor de la incertidumbre.
¿Hay vida para el póker a partir de ahora?
Kaspárov perdió contra una máquina, pero la gente sigue jugando al ajedrez. También se sigue jugando a las damas, al Othello, al Go y a los demás juegos. En el caso de Libratus, su victoria ha sido aplastante, pero no completa: la versión del póker en la que ha ganado era únicamente de tipo mano-a-mano entre dos jugadores, no en mesas completas con 6, 10 o más personas. Los expertos dicen que esa complejidad a día de hoy es computacionalmente inalcanzable.
Muchos se preguntan si no sería un buen negocio “disfrazar” a Libratus y ponerlo a jugar en las salas de juego online contra los humanos, con dinero de verdad. El hecho de que necesite una gran capacidad de computación entre bambalinas (básicamente, un superordenador) lo hace impracticable, así que pueden estar tranquilos: no sería ni fácil ni rentable a día de hoy.
Sin embargo, a muchos jugadores les preocupa si llegará algún día en el que los programadores preparen bots para desplumar a los demás jugadores, haciéndose pasar por humanos en las mesas de juego. Es algo que bien podría suceder y en lo que trabajan de forma discreta diversas empresas de software. Pero hace una década que existen y no ha pasado de ser algo anecdótico. De hecho, algunos conocidos casos de fraude por parte de casinos online se llevaron a cabo con métodos mucho más rudimentarios.
Sin duda sería otro de los retos prácticos de la inteligencia artificial, una especie de test de Turing pero con dinero contante y sonante en forma de premio.