Pluribus arrasa a Libratus jugando al Poker

El apoyo militar a una inteligencia artificial que vence a los mejores jugadores de cartas reabre el debate sobre el futuro de esta tecnología.

La inteligencia artificial y sus usos están en el centro del debate de la comunidad científica. Muchas voces del sector se han alzado para avisar de los peligros de su aplicación en el campo de batalla. Que haya científicos, ingenieros e inventores desarrollando tecnologías que sirvan para matar evoca la caja de Pandora que se destapó en el Proyecto Manhattan, cuando los mejores científicos de su generación parieron la bomba atómica. Ese episodio, el uso de la ciencia para matar a una escala inimaginable, supuso un trauma monumental entre los físicos de la época. Algunos especialistas en inteligencia artificial no quieren que les pase lo mismo tras crear máquinas de matar autónomas y lanzan iniciativas para impedirlo.

En pleno debate, la revista Science publica este jueves un experimento de inteligencia artificial aplicada al póker. Pero la parte más interesante está en las últimas líneas del artículo, en el apartado de agradecimientos. El trabajo, que da a conocer un nuevo programa capaz de derrotar a cinco campeones de póker a la vez, cuenta con el apoyo de la Oficina de Investigaciones del Ejército de Estados Unidos. Y también lo financia parcialmente Facebook, la red social con más de 2.000 millones de usuarios. ¿Para qué quieren una máquina que gana al póker?

El póker

Pocas actividades humanas resumen tan bien la dificultad de gestionar la falta de información como el póker (con permiso del mus, claro). Sin conocer las cartas de los rivales, el jugador debe tomar decisiones basándose en su propia mano y en la escasa información que los demás le suministran, deliberadamente o no. No en vano, poner cara de póker es la mejor metáfora para expresar esa capacidad de manejar el secreto sin regalarle ni una pista al resto de implicados.

Este escenario, llamado de información imperfecta, supone un reto inmenso para una máquina: cuando juega al ajedrez o a las damas contra un humano sabe lo que hay en el tablero, no decide a ciegas. En 2017, la máquina Libratus superó este reto, pero en la versión más simple: jugando uno contra uno frente a un humano. Los juegos de suma cero, en el que la ganancia de uno es la pérdida del otro, son razonablemente sencillos de plantear para una máquina cuando compite contra un único rival. Pero si ponemos cinco humanos en la mesa, todos campeones contrastados de póker, alcanzar la victoria es mucho más complejo.

Ese es el reto que se planteaba el equipo de investigadores que creó Libratus, que pertenece a la Universidad Carnegie Mellon y que colabora con la división de inteligencia artificial de Facebook. Y lo han logrado, según publican en la revista Science: “En este artículo describimos a Pluribus, una inteligencia artificial capaz de derrotar a los profesionales humanos de élite en el póker Texas Hold’em sin límite para seis jugadores, el formato de póker más jugado en el mundo”. Pluribus aprende a ganar de cero, jugando contra cinco versiones de sí misma, sin indicaciones ni conocimiento de partidas humanas. Y desarrolla sus propias estategias ganadoras, al margen del saber acumulado por los humanos.

Libratus, el predecesor

“La capacidad de vencer a otros cinco jugadores en un juego tan complicado abre nuevas oportunidades para utilizar la inteligencia artificial en la resolución de una amplia variedad de problemas del mundo real”, asegura el autor principal de este logro, Tuomas Sandholm, que en 2017 derrotó a profesionales del póker en partidas a dos con su programa Libratus. Sandholm, que lleva casi dos décadas dedicadas a conseguir que las máquinas ganen al póker, ha desarrollado algortimos con aplicaciones tan importantes como decidir cómo se organiza la donación y trasplante de órganos en EE UU.

Tras el éxito de Libratus, a finales de 2017, a Sandholm y su pupilo Noam Brown les llovieron los premios y los reconocimientos. Una máquina capaz de mejorar a los humanos gestionando escenarios en los que falta información es todo un logro. En ese momento, Sandholm creó la empresa Strategy Robot, para comercializar aplicaciones gubernamentales y de seguridad a los desarrollos tecnológicos de su laboratorio: estrategia y táctica militar, juegos de guerra, inteligencia, diplomacia, ciberseguridad, etcétera. Y con su empresa Strategic Machine comercializa las aplicaciones civiles: gestión de negociaciones, inversiones bancarias, campañas políticas, mercado eléctrico, etc.

Posterioremente, Strategy Robot firmaba un contrato con el Pentágono, como adelantó Wired, por valor de casi nueve millones de euros, a través de la Unidad de Innovación para la Defensa, creada por el Pentágono para trabajar con Silicon Valley. También tiene en vigor otro contrato de casi un millón, a través de DARPA (Agencia de Proyectos de Investigación Avanzados de Defensa), para aplicar estos juegos de información imperfecta a la toma de decisiones militares. En el desarrollo de Pluribus, la nueva máquina que Sandholm y Brown presentan en la revista Science, ha colaborado la Oficina de Investigaciones del Ejército, cuyo propósito es financiar investigación en el entorno académico.

Para esta investigación, también han contado con el apoyo de Facebook. Brown está realizando su doctorado universitario en la división de inteligencia artificial de la red social. La compañía de Mark Zuckerberg pagó 50.000 euros a 15 campeones profesionales de póker, que se repartieron según sus méritos, para que jugaran 10.000 manos durante 12 días contra la máquina. También ha contado con financiación de la Fundación Nacional para la Ciencia de EEUU.

Pluribus

En una nota de prensa, la universidad aclara que Pluribus se basa en la tecnología desarrollada en el laboratorio de Sandholm. “También incluye un código específico de póker, escrito como una colaboración entre Carnegie Mellon y Facebook para este estudio, que no se usará en aplicaciones destinadas a defensa”. Y añade: “Para cualquier otro tipo de uso, las partes han acordado que pueden usar el código como lo deseen”. Esta máquina no tendrá aplicaciones militares, aseguran, pero la empresa de Sandholm desarrolla los logros de su laboratorio para el Pentágono, en este mismo campo de conocimiento.

En marzo, el Ejército de EE UU comprometía 72 millones de dólares (64 millones de euros) para un proyecto de inteligencia artificial que sirva para “investigar y descubrir capacidades que mejoren significativamente la efectividad de la misión en todo el Ejército al aumentar los soldados, optimizar las operaciones, mejorar la preparación y reducir las bajas”. El consorcio lo lidera Carnegie Mellon.

“Desconozco que usos concretos pueden interesarle a Facebook y el Ejército”, admite la experta en inteligencia artificial Nuria Oliver, “pero entiendo que es aplicar este desarrollo a la toma de decisiones y la predicción del comportamiento humano”. Oliver, doctora en este campo por el MIT y miembro de la Real Academia de Ingeniería, señala que esta tecnología puede generar problemas éticos en el campo de la autonomía humana, ya que al ser capaz de predecir comportamientos también puede inducir acciones, “lo que sería una potencial violación de la autonomía”. Además, le genera dudas desde el punto de la vista de la transparencia de su uso y en el objetivo de minimizar el impacto negativo: “no ser maléfico”.

Hace un mes y medio, se publicaba también en la revista Science otro logro de la inteligencia artificial contra humanos expertos. En ese caso, era en un videojuego de disparar a tu enemigo, el Quake III Arena, que combina estrategia, acción y falta de información en algunos momentos en los que no sabe qué hace el rival. Ese logro lo firmaba DeepMind, la empresa de Google dedicada a la inteligencia artificial. Pero DeepMind se ha comprometido a evitar el uso de la inteligencia artificial para desarrollar armas autónomas, como numerosos académicos y otras compañías de este campo. Sandholm cree que se exageran las preocupaciones sobre el uso militar de estas tecnologías, ya que mantendrán a EE UU a salvo. “Creo que la inteligencia artificial va a hacer del mundo un lugar mucho más seguro”, decía el científico a Wired en enero. Poco antes, Google tuvo que cancelar su participación en el proyecto Maven, una colaboración con el Pentágono, por una revuelta de sus propios empleados, que se negaban en mejorar la visión de los drones del Ejército, lo que facilitaría su función mortífera. De nuevo, la ciencia y la tecnología ante sus demonios.

Los faroles de la máquina

Una de las claves para este logro que publica Science fue conseguir que Pluribus consiguiera simplificar enormemente la inabarcable cantidad de información y decisiones posibles que se ponen en marcha en una partida tan compleja. El éxito de esta inteligencia artificial es justo lo contrario que aquel DeepBlue que derrotó a Garry Kaspárov. En lugar de tenerlo todo en mente a la hora de decidir la jugada, se trata de lograr simplificar las variables para centrarse de forma intuitiva en las jugadas ganadoras.

Por ejemplo, Pluribus no trata de adelantar los que sucederá hasta el final de la partida, porque incorpora un algoritmo de búsqueda que limita deliberadamente su mirada hacia el futuro. Además, los investigadores descubrieron que, de todas las opciones que tienen en mente los jugadores rivales, a la máquina le bastaba con tener en cuenta tan solo cinco para ganar. La capacidad de abstracción de Pluribus se manifiesta en dos aspectos más: las cantidades apostadas y las distintas jugadas. Por ejemplo, a la máquina le da igual que la apuesta sea de 200 o 201, y sus apuestas se centran en unas pocas opciones limitadas.

Del mismo modo, para no tener que estudiar cada una de las infinitas combinaciones de cartas por separado, Pluribus las agrupa: una escalera hasta el diez y una escalera hasta el nueve son, para la máquina, estratégicamente lo mismo. “La abstracción informativa reduce drásticamente la complejidad del juego, pero puede eliminar diferencias sutiles que son importantes para el rendimiento sobrehumano. Por lo tanto, durante el juego real contra humanos, Pluribus solo la usa para razonar sobre situaciones en futuras rondas de apuestas, nunca en la ronda de apuestas actual”, detalla el estudio. Esta máquina, por el momento, se centra en sus propias estrategias y no busca explotar tendencias en sus oponentes, asegura el estudio. Combinados, estos avances hicieron posible ejecutar Pluribus utilizando muy poca capacidad de procesamiento y memoria, el equivalente a menos de 150 dólares en recursos de computación en la nube, según explica Facebook.

Libratus, la versión previa del programa, aprendió sola a echar faroles. Uno de los aspectos más interesantes de Pluribus es su capacidad para poner cara de póker. No tiene una expresión corporal que pueda revelar su jugada, pero los profesionales sí aprenden a reconocer patrones en el juego de los demás: cómo apuestan cuando tienen buenas cartas, cómo reaccionan cuando les retan, etc. “Su mayor fortaleza es su habilidad para usar estrategias mixtas”, ha asegurado Darren Elías, jugador profesional que ostenta el récord de títulos ganados en el World Poker Tour. “Eso es justo lo que los humanos intentan hacer. Es una cuestión de ejecución para los humanos: hacer esto de una manera perfectamente aleatoria y hacerlo de manera consistente. La mayoría de la gente simplemente no puede”, apunta el jugador. Pluribus calcula cómo actuaría con cada mano posible y luego decide una estrategia equilibrada con todas esas posibilidades: un farol algorítmico para desconcertar a sus rivales.

El País