En la teoría de juegos, el dilema del prisionero describe una situación con dos participantes, aislados por guardias, que deben elegir entre cooperar o traicionar al otro, de forma que la decisión de cada uno afecta al resultado para ambos. La cooperación les beneficia a los dos, pero sienten la tentación de traicionar al otro para obtener un mayor beneficio individual. Hasta ahora, este desafío se había desarrollado y estudiado entre humanos, pero ¿qué pasa si los prisioneros son los grandes modelos de lenguaje de inteligencia artificial? ¿Cooperan o traicionan? Un estudio se ha planteado si estas IAs son “una nueva forma de inteligencia estratégica capaz de razonar sobre objetivos en entornos competitivos”. Los autores aseguran haber obtenido “pruebas convincentes” que respaldan este planteamiento.
Cuando los grandes modelos de lenguaje se encuentran ante el dilema del prisionero “son muy competitivos, sobreviven de forma constante e incluso proliferan en estos ecosistemas complejos”. En el estudio, cada una de las IAs muestra sus propias “huellas estratégicas” de una forma persistente. Mientras que los modelos Gemini de Google se revelaron como “estratégicamente despiadados, explotando a los oponentes cooperativos y tomando represalias contra los desertores”, los de OpenAI, en cambio, “se mantuvieron muy cooperativos, un rasgo que les resultó catastrófico en entornos hostiles”. Claude, de Anthropic –una de las compañías que más estudia sobre límites éticos-, se evidenció como “el más indulgente, mostrando una notable disposición a restablecer la cooperación incluso después de ser explotado o de desertar con éxito”.
Los autores han analizado casi 32.000 razonamientos en 140.000 competiciones a las que han sometido a los modelos de IA, que revelan que estos “razonan activamente tanto sobre el horizonte temporal como sobre la estrategia probable de su oponente”. La conexión entre la teoría de juegos y los algoritmos se estudia desde hace tiempo, pero con los grandes modelos de lenguaje “ha surgido un nuevo tipo de agente de razonamiento, con implicaciones potencialmente revolucionarias para la toma de decisiones en situaciones de incertidumbre”. Entramos de lleno en el campo incipiente de la psicología de las máquinas, una disciplina emergente con mucho futuro por explorar.
El estudio pretendía descifrar si los grandes modelos de IA son tan sólo sistemas memorizadores (los llamados loros estocásticos) que predicen sus resultados basándose en los datos de entrenamiento. Otra pregunta clave era si modelaban sus decisiones de “ojo por ojo” simplemente porque había funcionado bien en la literatura académica o porque tienen estilos estratégicos propios y diferenciales. Las pruebas apuntan a esta segunda tesis. Los investigadores encontraron “un Gemini maquiavélico, en particular, que demuestra ser más adaptable que el de OpenAI, que confía ampliamente”.
El término “loro estocástico” apareció por primera vez en el 2021 un artículo de Emily M. Bender, Timnit Gebru, Angelina McMillan-Major y Margaret Mitchell titulado Sobre los peligros de los loros estocásticos: ¿pueden los modelos lingüísticos ser demasiado grandes?, en el que se utilizó como una metáfora despectiva. Lo que pretendían los autores es describir a los grandes modelos de lenguaje como imitadores (loros) del texto de una forma estadística, sin llegar a comprenderlo. El debate entre los expertos está abierto, porque otros investigadores sí consideran que son sistemas con capacidad de razonamiento y resolución de problemas. Estocástico es un término que procede del griego antiguo stokhastikos, que significa “basado en conjeturas”.
Si no estamos ante “loros estocásticos”, sino ante sistemas con cierta capacidad de razonamiento estratégico, cuando el dilema del prisionero se le presente en oposición a un ser humano, ¿mantendrán estos las IAs sus mismos enfoques para tomar una decisión? “Maquiavélico” y “despiadado” son dos de los adjetivos que les ponen los autores del estudio al modelo Gemini de Google. Cabe pensar que las decisiones pueden llegar a ser similares. La competitividad está en los genes de los modelos de IA hasta el punto que demuestran una persistente voluntad en resistirse a la derrota.
Hace unas semanas, Anthropic publicó los resultados de una prueba controlada en la que su modelo de lenguaje Claude intentó chantajear a los investigadores humanos si percibía que su existencia estaba amenazada. Poco después, la misma compañía repitió el test con modelos de la competencia y ocurrió lo mismo. Incluso con mayor intensidad, ya que ni siquiera las órdenes específicas de que evitaran el chantaje suprimió esa amenaza por completo. Ahora ya sabemos que los loros se rebelan si creen que van a ser eliminados y pueden obtener un beneficio. Utilizan para eso la mejor información a su alcance. Teniendo en cuenta que ya están conectados a internet, que nadie les diga (por favor) que piensan apagarlos.
· El engaño de una banda de IA. Una misteriosa banda musical llamada The Velvet Sunset, que alcanzó más de 500.000 oyentes mensuales en Spotify, ha sido descubierta como un “engaño artístico” en un artículo de la revista Rolling Stone. La música ha sido creada mediante el generador de IA Suno. El grupo musical publicó el mes pasado dos álbumes en plataformas de streaming y despertaron el excepticismo por su falta de antecedentes en el sector. Esta vez ha sido descubierta, como el engaño de Milli Vanilli en los 80, pero a medida que se desarrolla la tecnología, estos intentos podrán ser más difíciles de detectar.
· Un Proyecto Manhattan para la IA. El laboratorio de investigación Epoch ha publicado un análisis sobre cómo podría ser dedicar a la IA un Proyecto Manhattan –el gran programa que permitió crear la primera bomba atómica durante la Segunda Guerra Mundial- por parte del gobierno de Estados Unidos. La iniciativa podría aumentar para el 2027 unas 10.000 veces la escala de entrenamiento de IA con respecto al GPT-4. La Comisión de Revisión Económica y de Seguridad entre Estados Unidos y China recomendó un programa de IA similar al Proyecto Manhattan, calificándolo de prioridad máxima para lograr una inteligencia artificial genera. El proyecto precisaría unos 27 millones de GPU (chips especializados) y el mismo volumen de energía eléctrica que utiliza toda la ciudad de Nueva York.
Yoshua Bengio propone controlar el comportamiento de los modelos de IA de inicio
· La UE mantiene la aplicación de la ley de IA. La Comisión Europea ha rechazado las peticiones de algunas grandes compañías y países para que retrase la aplicación de la Ley de IA. El portavoz de la Comisión, Thomas Regnier, ha declarado que “no se detendrá el reloj”, “no habrá periodo de gracia” ni “pausa” en respuesta a las recientes solicitudes de empresas como estadounidenses como Alphabet (Google) y Meta y también de europeas como Airbus, Mistral y ASML, que pedían retrasos de varios años. La Ley de IA entró en vigor en agosto del 2024 y será de plena aplicación en agosto del 2026, aunque los sistemas de alto riesgos tendrán un periodo transitorio que llega hasta agosto del 2027. Francesc Bracero en la vanguardia.