Cuando no tenemos un modelo perfecto del entorno, podemos tomar buenas decisiones probando y aprendiendo sobre la marcha. Ahí brilla mcts en robotica, que explora y explota con cabeza para actuar a tiempo.
A diferencia de los procesos de decisión de Markov, que piden conocer todas las transiciones y probabilidades, aquí trabajamos con muestras de acciones y estados. Probamos, guardamos resultados y volvemos a probar, con una estrategia de mejora continua que encaja bien en robótica y en cualquier entorno incierto.
Imaginemos el trayecto al trabajo. Elegimos entre caminar, bus, bici o coche compartido y buscamos minimizar el tiempo esperado. El método levanta un árbol de decisiones y recorre tres fases claras: selección para bajar por el árbol hacia lo más prometedor, expansión para añadir nuevas opciones y simulación para estimar resultados con un muestreo rápido. Tras cada tanda, actualizamos el valor de los nodos y afinamos el rumbo.
El equilibrio entre explorar y explotar lo guía la regla UCT, que combina el rendimiento medio de una acción con una bonificación por incertidumbre. Así probamos opciones poco vistas sin olvidar lo que ya funciona. En las simulaciones usamos una política de cobertura aleatoria sencilla, válida para arrancar y sustituible por políticas informadas si tenemos pistas del dominio.
Con más simulaciones, las estimaciones convergen y la decisión mejora. Es un algoritmo de tipo anytime, útil cuando el reloj aprieta, aunque las respuestas dependen de cuántas pruebas hagamos antes de actuar y pueden arrastrar sesgos de muestreo. En robótica nos permite pensar y movernos en tiempo real, y si lanzamos varias instancias en paralelo ganamos precisión sin frenar el sistema.
Propuesta de juego breve: montemos un pequeño árbol de rutas con tarjetas; cada persona simula una decisión al azar y anota un tiempo ficticio, repetimos rondas y marcamos en las tarjetas las ramas que mejor funcionen.
Si nos apetece seguir aprendiendo con dinámicas prácticas y ligeras, visitemos JeiJoLand y llevemos estas ideas a nuestros proyectos.