Qué es AlphaGo: cómo la IA conquistó el Go

Portada » Go » Qué es AlphaGo y por qué cambió la historia de la IA

AlphaGo es un sistema de inteligencia artificial de DeepMind que combinó redes neuronales profundas y búsqueda Monte Carlo para dominar el juego del Go, superando ampliamente la complejidad que limitaba a enfoques clásicos como Deep Blue.
Tras derrotar a profesionales como Fan Hui y al legendario Lee Sedol (4-1), fueron apareciendo versiones cada vez más fuertes —AlphaGo Master y AlphaGo Zero— hasta llegar a AlphaZero, capaz de aprender desde cero Go, ajedrez y shogi con el mismo algoritmo.
Las técnicas de AlphaGo se han extendido a campos científicos como el plegamiento de proteínas (AlphaFold), el razonamiento matemático (AlphaProof, AlphaGeometry) y el descubrimiento de algoritmos (AlphaEvolve), convirtiéndose en una base para nuevas herramientas de investigación asistida por IA.
Modelos multimodales como Gemini integran los principios de búsqueda y planificación de AlphaGo con comprensión de lenguaje, imágenes, vídeo y código, apuntando hacia sistemas de IA más generales capaces de colaborar con humanos en problemas científicos y tecnológicos complejos.

El nombre de AlphaGo se ha convertido en sinónimo de un antes y un después en la historia de la inteligencia artificial. Lo que empezó como un experimento para enseñar a una máquina a jugar al Go terminó desencadenando una revolución en la forma en que la IA aprende, razona y se aplica a la ciencia y la tecnología.

Para entender por qué este sistema es tan importante, hay que mirar tanto al propio juego del Go como a las innovaciones técnicas que introdujo DeepMind. A partir de ahí, se puede seguir el hilo que lleva desde AlphaGo y sus sucesores AlphaGo Zero y AlphaZero hasta avances científicos como AlphaFold, nuevos algoritmos y modelos como Gemini que apuntan hacia una IA cada vez más general.

¿Qué es AlphaGo y por qué supuso un hito?

AlphaGo es un algoritmo de inteligencia artificial creado por DeepMind (compañía de Google) diseñado para jugar al Go a nivel superhumano. A diferencia de sistemas previos como Deep Blue, que derrotó al campeón mundial de ajedrez Gary Kasparov basándose sobre todo en fuerza bruta de cálculo, AlphaGo combinó redes neuronales profundas con búsqueda en árbol y aprendizaje por refuerzo para capturar algo muy parecido a la intuición humana.

El objetivo de DeepMind era resolver un reto que llevaba décadas considerándose casi imposible: construir un programa capaz de vencer a los mejores jugadores profesionales de Go. El Go es mucho más complejo que el ajedrez en términos de posibles configuraciones; el número de posiciones legales en un tablero estándar de 19×19 supera con creces el número de átomos del universo observable, lo que hace que los enfoques clásicos basados en explorar millones de jugadas se queden ridículamente cortos.

Antes de AlphaGo, los mejores programas de Go apenas llegaban a un nivel de aficionado fuerte. La propia comunidad investigadora asumía que faltaban muchos años para que una IA pudiera plantar cara a los grandes maestros. Ese es precisamente el contexto que hace tan impresionante que AlphaGo fuese el primer programa en ganar a un profesional en partido oficial, y que poco después derrotara a uno de los mejores jugadores de la historia.

El juego del Go: el campo de pruebas perfecto

El Go es un juego de mesa de origen chino con más de 2.500 años de historia y forma parte de los juegos de estrategia similares al ajedrez. Dos jugadores se alternan para colocar piedras blancas y negras en las intersecciones de un tablero, normalmente de 19×19, aunque también existen tamaños menores como 9×9 o 13×13. El objetivo es controlar más territorio que el rival, ya sea rodeando espacios vacíos o capturando las piezas enemigas al dejarlas sin libertades.

La gracia del Go está en que, pese a tener reglas muy sencillas, la cantidad de posibles posiciones y estrategias es abrumadora. Se estima que el espacio de búsqueda del juego ronda valores del orden de 10¹⁰⁰ o superiores, lo que implica que no hay forma práctica de evaluar todas las secuencias de movimientos, incluso con supercomputadores. Por eso, enfoques tipo Deep Blue, que calculaban árboles gigantescos de jugadas futuras, se estrellaban contra una pared computacional en Go.

Los grandes maestros de Go hablan a menudo de intuición, forma, ritmo y sentido del tablero. Tomar una buena decisión no es cuestión de mirar 30 jugadas por delante, sino de reconocer patrones muy sutiles y evaluar posiciones de forma global. Ese carácter tan «humano» del juego fue lo que lo convirtió en un campo de pruebas ideal para las nuevas técnicas de aprendizaje profundo que estaba desarrollando DeepMind.

La arquitectura de AlphaGo: redes neuronales y búsqueda inteligente

El corazón de AlphaGo es una combinación de redes neuronales profundas y un algoritmo de búsqueda en árbol Monte Carlo, lo que permite a la máquina mezclar intuición estadística con exploración razonada de variantes concretas. Para ello, el sistema se apoya en dos tipos principales de redes: la red de políticas y la red de valor.

La red de políticas se encarga de sugerir qué jugadas son prometedoras en una posición determinada. En lugar de probar todos los movimientos legales, AlphaGo usa esta red para centrarse en un pequeño subconjunto con más probabilidades de ser buenos. Por su parte, la red de valor evalúa posiciones completas y estima la probabilidad de victoria desde esa configuración, algo así como un «olfato» para saber si una situación global en el tablero pinta bien o mal.

Sobre estas redes se ejecuta un árbol de búsqueda Monte Carlo (MCTS), que simula partidas parciales explorando las posibilidades más interesantes guiadas por la red de políticas, y utiliza la red de valor para cortar ramas poco prometedoras. Esta sinergia permite reducir drásticamente el número de variantes necesarias, manteniendo un nivel de cálculo estratégicamente muy potente a la vez que imitaba, en cierto modo, la forma de pensar de un profesional humano.

Juegos de estrategia similares al ajedrez para dos jugadores

Aunque el sistema emplea cierto preprocesamiento específico del juego para generar las entradas a las redes neuronales (por ejemplo, representar el tablero y libertades de los grupos de piedras), dicha ingeniería de características está bastante limitada. El verdadero peso recae en el aprendizaje automático a gran escala, tanto a partir de partidas humanas como de juegos auto-generados.

Cómo aprendió AlphaGo a jugar al Go

Las redes neuronales de AlphaGo fueron inicialmente entrenadas para imitar a jugadores humanos expertos. DeepMind recopiló una base de datos gigantesca, con alrededor de 30 millones de movimientos procedentes de partidas profesionales o de alto nivel aficionado, y utilizó ese material para que la red de políticas aprendiera a predecir qué jugada haría un experto en cada posición.

Una vez alcanzado un determinado nivel, el equipo dio un paso más allá y utilizó aprendizaje por refuerzo. En esta fase, AlphaGo jugó una cantidad enorme de partidas contra distintas versiones de sí mismo. Cada vez que ganaba o perdía, el sistema ajustaba sus parámetros internos para reforzar las decisiones que llevaban a la victoria y penalizar las que terminaban en derrota. De este modo, dejaba de limitarse a imitar a los humanos y empezaba a descubrir estrategias propias.

Este enfoque permitió que AlphaGo puliera su estilo de juego más allá de lo conocido, identificando patrones de posición y secuencias de jugadas que no aparecían con frecuencia en los registros humanos. El resultado fue un programa capaz de sorprender incluso a jugadores de 9 dan, como Myungwan Kim, quien describió la experiencia de enfrentarse a AlphaGo como similar a jugar contra una persona muy fuerte. El árbitro Toby Manning llegó a calificar su estilo como «conservador», subrayando que el programa tendía a elegir líneas sólidas y seguras cuando ya tenía ventaja.

Rendimiento técnico: CPUs, GPUs, TPUs y ranking Elo

Para alcanzar su máximo rendimiento, AlphaGo se ejecutó sobre configuraciones de hardware muy variadas, tanto en modo asíncrono como en modo distribuido. En todos los casos, el sistema disponía de unos dos segundos de tiempo de cálculo por movimiento, y su fuerza se medía mediante un ranking Elo, similar al utilizado en ajedrez y Go para clasificar a los jugadores humanos.

En modo asíncrono, con 40 hilos de búsqueda, 48 CPUs y diferente número de GPUs, los resultados eran los siguientes: con 1 GPU el Elo alcanzaba los 2.151 puntos; con 2 GPUs subía a 2.738; con 4 GPUs llegaba a 2.850; y con 8 GPUs rozaba los 2.890. Esta progresión muestra cómo aumentar la potencia de cálculo gráfica se traducía directamente en un juego más fuerte.

En configuración distribuida, donde AlphaGo se desplegaba sobre centenares de CPUs y decenas o centenares de GPUs, el salto era todavía mayor. Con 12 hilos de búsqueda, 428 CPUs y 64 GPUs, el sistema alcanzaba un Elo de 2.937; con 24 hilos, 764 CPUs y 112 GPUs, llegaba a 3.079; con 40 hilos, 1.202 CPUs y 176 GPUs, subía a 3.140; y con 64 hilos de búsqueda, 1.920 CPUs y 280 GPUs, el Elo se situaba en torno a 3.168 puntos. Estas cifras reflejan el enorme músculo computacional que DeepMind puso detrás del proyecto.

Además del hardware clásico de CPU y GPU, DeepMind desarrolló versiones de AlphaGo basadas en TPUs (Tensor Processing Units), chips especializados en operaciones de aprendizaje profundo. Así, se definieron distintas variantes y entornos de ejecución con su propia fuerza medida en Elo.

Versiones de AlphaGo: Fan, Lee, Master y Zero

La historia de AlphaGo se puede seguir a través de sus diferentes versiones oficiales, cada una más fuerte que la anterior. La primera gran demostración pública fue AlphaGo Fan, ejecutado en configuración distribuida con 176 GPUs, que alcanzaba un Elo aproximado de 3.144 y derrotó por 5-0 a Fan Hui, profesional europeo de Go.

Posteriormente apareció AlphaGo Lee, corriendo sobre 48 TPUs en modo distribuido, con un Elo estimado de 3.739. Esta versión fue la que se enfrentó a Lee Sedol, uno de los mejores jugadores de la historia, en el famoso match de marzo de 2016, logrando una victoria por 4-1. La cuarta partida, en la que Sedol logró su único punto gracias a una jugada brillante (la célebre jugada 78), se recuerda aún como una de las partidas más bellas jamás jugadas.

Más adelante, DeepMind presentó AlphaGo Master, que corría en una sola máquina equipada con 4 TPUs v2 y se estima que alcanzó un Elo de 4.858. Esta versión jugó en línea, de forma anónima al principio, y arrasó con un marcador de 60-0 frente a jugadores profesionales de primer nivel, además de participar en la llamada Cumbre del Futuro de Go. Su fuerza superaba con creces la de cualquier humano.

El salto definitivo llegó con AlphaGo Zero. Esta versión, también corriendo en una única máquina con 4 TPUs v2, alcanzó un Elo de 5.185. En enfrentamientos internos, ganó 100-0 a AlphaGo Lee y registró un resultado de 89-11 contra AlphaGo Master. Estas cifras ilustran el abismo de rendimiento entre las versiones iniciales y el enfoque radicalmente nuevo de AlphaGo Zero.

AlphaGo contra Lee Sedol: el duelo que cambió la historia

El enfrentamiento entre AlphaGo y Lee Sedol en marzo de 2016 se ha convertido en un icono de la historia de la IA. El encuentro constó de cinco partidas, con el siguiente desarrollo: el 9 de marzo, en la partida 1, Lee llevó negras y AlphaGo blancas; AlphaGo ganó por abandono tras 186 movimientos. El 10 de marzo, en la partida 2, AlphaGo jugó con negras y volvió a imponerse por abandono en 211 movimientos.

El 12 de marzo se disputó la partida 3, con Lee como negras y AlphaGo como blancas; de nuevo, AlphaGo se llevó la victoria por abandono tras 176 jugadas. En la partida 4, el 13 de marzo, se produjo el momento de gloria de Lee Sedol: con blancas, encontró la famosísima jugada 78, apodada «God’s Touch», una decisión extremadamente poco probable según los cálculos del propio sistema. Esa jugada le permitió finalmente ganar por abandono en 180 movimientos.

Qué es el juego del Go: historia, reglas y profundidad estratégica

La quinta y última partida tuvo lugar el 15 de marzo. Lee jugó con negras y AlphaGo con blancas; el sistema de DeepMind ganó de nuevo por abandono tras 280 jugadas, sellando el marcador final de AlphaGo 4 – 1 Lee Sedol. Durante estos encuentros, AlphaGo realizó también movimientos considerados casi «mágicos», como la célebre jugada 37 de la segunda partida, una elección que su propia evaluación interna consideraba con una probabilidad de apenas 1 entre 10.000, pero que resultó decisiva y desafió siglos de sabiduría tradicional en Go.

El nivel mostrado por AlphaGo en este duelo le valió un rango de 9 dan profesional, el máximo reconocimiento posible, siendo la primera vez que un programa de Go obtenía ese título. Millones de jugadores, desde aficionados hasta profesionales, han estudiado esas partidas y, en particular, las jugadas 37 y 78, que se consideran ejemplos de creatividad tanto de la IA como del humano.

AlphaGo Zero: aprender sin partidas humanas

En octubre de 2017, el equipo de DeepMind publicó en la revista Nature un trabajo revolucionario presentando AlphaGo Zero, una versión completamente nueva del sistema que dio un salto conceptual enorme: ya no necesitaba ninguna partida humana ni supervisión externa para aprender a jugar.

AlphaGo Zero partía únicamente de las reglas básicas del juego y la descripción del tablero, sin bases de datos de partidas históricas ni conocimiento experto codificado. Comenzó jugando contra sí mismo de forma totalmente aleatoria, y mediante aprendizaje por refuerzo y la misma combinación de búsqueda en árbol y redes neuronales, fue descubriendo por su cuenta las mejores estrategias posibles. En tan solo tres días de entrenamiento, logró superar a la versión AlphaGo Lee con un demoledor 100-0.

Tras 21 días de autoentrenamiento, AlphaGo Zero alcanzó un nivel de fuerza similar a AlphaGo Master; en 40 días ya superaba a todas las iteraciones anteriores de AlphaGo. Una de las claves técnicas de esta evolución es que Zero utilizaba una única red neuronal que combinaba funciones de política y de valor, en lugar de dos redes separadas como el AlphaGo original, y solo tomaba como entrada la configuración pura del tablero, sin variables sintéticas adicionales. Esto simplificaba la arquitectura y mejoraba la eficiencia del aprendizaje.

Lo más llamativo es que AlphaGo Zero comenzó a desarrollar patrones de juego y jugadas nunca vistas, incluso para los profesionales, demostrando que un agente sin conocimiento previo humano podía no solo igualar, sino superar con creces siglos de experiencia acumulada. Este resultado fue recibido como una prueba contundente del potencial del aprendizaje por refuerzo y las redes profundas para abordar problemas complejos más allá de los juegos.

AlphaZero: generalizar la idea a otros juegos

Poco después de presentar AlphaGo Zero, DeepMind dio otro paso con AlphaZero, una versión más genérica basada en los mismos principios. El objetivo aquí era demostrar que un único algoritmo de aprendizaje por refuerzo y una misma arquitectura de red neuronal podían aprender desde cero a jugar a diferentes juegos, sin ajustes específicos para cada uno.

AlphaZero se aplicó a ajedrez, shogi (ajedrez japonés) y Go, siempre partiendo solo de las reglas de cada juego y sin partidas humanas de referencia. En ajedrez, después de apenas cuatro horas de entrenamiento, ya superaba al famosísimo motor Stockfish. En shogi, logró vencer al programa Elmo en solo dos horas de entrenamiento. Y en Go, superó a la versión de AlphaGo que había derrotado a Lee Sedol tras unas 30 horas de entrenamiento, y a AlphaGo Zero tras 13 días.

Estos resultados no solo consolidaron la superioridad de estos métodos en juegos de estrategia, sino que inspiraron a miles de jugadores profesionales que empezaron a estudiar las partidas de AlphaZero para aprender nuevas ideas. Al mismo tiempo, reforzaron la idea de que un enfoque de IA relativamente unificado puede adaptarse a entornos muy distintos, siempre que haya reglas claras y un objetivo bien definido.

Comparación con otros proyectos: Darkforest y más allá

AlphaGo no fue el único intento de aplicar aprendizaje automático al juego del Go. Facebook, por ejemplo, desarrolló su propio sistema llamado darkforest, que también combinaba técnicas de machine learning con búsqueda en árbol. Contra otros programas de Go, darkforest mostraba un rendimiento potente y competitivo.

Sin embargo, hasta principios de 2016, darkforest no llegó a derrotar a un profesional humano. Perdió contra programas como CrazyStone y Zen y se estima que tenía una fuerza similar a ellos. En la práctica, esto lo situaba bastante por debajo del nivel alcanzado por AlphaGo Fan, Lee o Master. Aun así, proyectos como darkforest ayudaron a consolidar la tendencia de combinar redes neuronales con búsqueda, y contribuyeron al ecosistema de investigación en IA aplicada a juegos complejos.

De AlphaGo a la ciencia: AlphaFold y otras aplicaciones

El verdadero impacto de AlphaGo no se limita al tablero. Para DeepMind, el proyecto fue un banco de pruebas para explorar cómo una IA puede navegar espacios de búsqueda gigantescos, y lo aprendido se trasladó a problemas científicos reales. Uno de los desafíos más importantes fue el plegamiento de proteínas, un problema abierto durante más de 50 años que consiste en predecir la estructura tridimensional que adopta una proteína a partir de su secuencia de aminoácidos.

Usando ideas y técnicas derivadas del enfoque de AlphaGo, DeepMind desarrolló AlphaFold 2, un sistema que en 2020 logró resolver este reto científico de larga data con una precisión sin precedentes. A partir de ahí, el equipo generó las estructuras de prácticamente las 200 millones de proteínas conocidas por la ciencia y las puso a disposición de la comunidad investigadora en una base de datos abierta. Hoy se estima que más de 3 millones de científicos en todo el mundo utilizan la información de AlphaFold en investigaciones que van desde vacunas contra la malaria hasta enzimas que degradan plásticos.

Reglas del Go: explicación completa para entender el juego

La relevancia de este trabajo fue tal que, en 2024, John Jumper y Demis Hassabis, en representación del equipo de AlphaFold, recibieron el Premio Nobel de Química. Es un reconocimiento histórico que conecta directamente los métodos de búsqueda y aprendizaje desarrollados con AlphaGo con aplicaciones científicas de primer nivel en biología y medicina.

Extender el enfoque: matemáticas, algoritmos y co-científicos de IA

Además del plegamiento de proteínas, DeepMind ha reutilizado y adaptado las ideas de AlphaGo a otros campos. En el ámbito matemático, por ejemplo, sistemas como AlphaProof, descendiente directo de la arquitectura de AlphaGo, han aprendido a demostrar enunciados matemáticos formales combinando modelos de lenguaje con algoritmos de aprendizaje por refuerzo y búsqueda al estilo AlphaZero.

Junto con AlphaGeometry 2, estos sistemas llegaron a obtener resultados de nivel medalla de plata en la Olimpiada Internacional de Matemáticas (IMO), un logro que sugiere que las técnicas de AlphaGo pueden abrir puertas al razonamiento matemático avanzado. Sobre esta base se han construido modelos aún más potentes, como Gemini en su modo Deep Think, que alcanzó un rendimiento equivalente a medalla de oro en la IMO de 2025 utilizando un enfoque claramente inspirado en las estrategias de búsqueda de AlphaGo.

Otro desarrollo llamativo es AlphaEvolve, un agente de programación que explora el espacio de posibles programas de ordenador para descubrir algoritmos más eficientes, de forma similar a como AlphaGo exploraba el espacio de jugadas en el Go. Uno de sus hitos fue el hallazgo de una nueva forma de multiplicar matrices, una operación fundamental para casi todas las redes neuronales modernas. Este tipo de descubrimiento se ha descrito como el propio «momento Jugada 37» de AlphaEvolve, al proponer soluciones creativas e inesperadas.

Paralelamente, DeepMind está trabajando en sistemas de colaboración científica asistida por IA, a veces descritos como co-scientists. Integrando principios de búsqueda y razonamiento procedentes de AlphaGo, estos agentes pueden debatir hipótesis, analizar grandes volúmenes de literatura y sugerir explicaciones plausibles para fenómenos complejos. En estudios realizados en el Imperial College London, por ejemplo, un sistema de este tipo fue capaz de reconstruir de forma independiente una hipótesis sobre la resistencia a los antimicrobianos que a los investigadores humanos les había llevado años formular y validar experimentalmente.

Gemini, modelos multimodales y el futuro de la IA general

Los modelos más recientes de DeepMind, como Gemini, también beben directamente de la herencia de AlphaGo. Gemini se ha diseñado como un sistema multimodal desde el principio, capaz de entender no solo lenguaje, sino también imágenes, vídeo, audio y código. La idea es que sea capaz de construir un modelo interno del mundo mucho más rico y matizado que el de un modelo puramente textual.

Para razonar sobre todas estas modalidades, las versiones más avanzadas de Gemini emplean técnicas de búsqueda y planificación inspiradas en AlphaGo y AlphaZero. Cuando se enfrenta a problemas científicos o de ingeniería complejos, el sistema puede utilizar estrategias similares a las de un jugador de Go: explorar diferentes caminos, refinar sus hipótesis, descartar las líneas menos prometedoras y profundizar en las más plausibles.

Además, se espera que la próxima generación de sistemas de IA pueda invocar herramientas especializadas según lo requiera el problema. Si un modelo necesita conocer la estructura de una proteína, por ejemplo, podría llamar a AlphaFold bajo el capó. La combinación de los modelos del mundo de Gemini, las técnicas de búsqueda de AlphaGo y un ecosistema de herramientas especializadas se perfila como un ingrediente clave para acercarse a una inteligencia artificial verdaderamente general.

En ese horizonte, la creatividad adquiere un papel central. La famosa jugada 37 de AlphaGo fue un pequeño destello de cómo una IA puede pensar de manera original en un entorno acotado. Pero los propios investigadores reconocen que la verdadera invención requerirá algo más: no solo idear una nueva estrategia dentro de un juego existente, sino tal vez inventar «juegos» conceptuales completamente nuevos, tan profundos y estudiables como el Go, en ámbitos como la física, la biología o la ingeniería.

Hoy, muchos de los modelos científicos basados en estas técnicas siguen siendo altamente especializados. Para llegar a avances fundamentales —como desarrollar fuentes de energía limpias prácticamente ilimitadas o comprender y curar enfermedades que hoy se nos escapan— será necesario contar con sistemas de IA generales capaces de conectar conocimientos de diferentes disciplinas, formular hipótesis nuevas y colaborar codo con codo con los científicos humanos.

A día de hoy, AlphaGo se recuerda sobre todo como el programa que derrotó a Lee Sedol y que protagonizó incluso un documental en Netflix, pero su legado va mucho más allá del tablero. La chispa creativa de jugadas como la 37 catalizó una cadena de innovaciones que ha llevado a sistemas como AlphaGo Zero, AlphaZero, AlphaFold, AlphaEvolve, los co-scientists y modelos multimodales como Gemini. Todo apunta a que esa combinación de búsqueda inteligente, aprendizaje por refuerzo y redes profundas seguirá marcando el camino en la próxima década de investigación en IA, abriendo la puerta a una nueva «edad de oro» del descubrimiento científico, en la que humanos y máquinas exploren juntos problemas que hasta hace poco parecían simplemente inabordables.