JlA 8×73 Aprendizaje por refuerzo para decisiones del día a día

Decidir mejor se entrena con técnicas que convierten la retroalimentación en guía práctica. Con aprendizaje por refuerzo, actuamos, recibimos recompensas y ajustamos la política para llegar antes incluso en trayectos cotidianos.

Este enfoque no nos da la respuesta correcta como en el supervisado ni busca patrones ocultos como en el no supervisado. En su lugar, premiamos cada acción según lo que logre y seguimos con otra decisión. Pensemos en ese trayecto monstruoso al trabajo: queremos llegar rápido y sin sobresaltos, así que cada semáforo, desvío o medio de transporte se valora por el tiempo ganado o perdido.

No partimos de un modelo cerrado del mundo. Aprendemos en tiempo real, en un ciclo continuo donde actuamos, el entorno responde y nosotros modificamos la estrategia para la próxima vez. Si una rotonda fue un atasco, reducimos su atractivo; si una calle secundaria nos dio un respiro, le subimos la nota.

Aquí aparece el equilibrio entre explorar y explotar. La política epsilon greedy nos ayuda: la mayoría de ocasiones elegimos lo mejor conocido, y de vez en cuando probamos algo distinto por si hay una ruta milagrosa escondida. Así evitamos casarnos con una opción que parecía buenísima hasta que la obra sorpresa la convirtió en pesadilla.

Para decidir bien, estimamos valores Q, es decir, cuánto retorno esperamos de cada combinación de estado y acción. Vamos actualizando esos valores con señales de recompensa y con lo aprendido en pasos futuros usando diferencia temporal. Luego actuamos según la acción con mayor valor Q, lo que afina la política poco a poco sin necesidad de fórmulas enrevesadas.

El proceso completo se ve como trayectorias de estados y recompensas, series que cuentan nuestra historia diaria desde que salimos de casa hasta que fichamos. Con métodos off policy, como Q learning, aprendemos una política óptima incluso mientras seguimos otra para explorar con seguridad. Esto acelera el aprendizaje y reduce el coste de las pruebas aleatorias.

Cuando saltamos a problemas más complejos, como robótica, se mantienen las ideas base: sensores que describen estados, acciones que mueven motores, recompensas por objetivos cumplidos. Para escalar, usamos aproximación de funciones y redes profundas que generalizan, y simuladores que permiten fallar sin romper nada, que nuestro jefe y el robot lo agradecen.

Propuesta para jugar: durante una semana, registramos cada elección en el camino al trabajo, anotamos la recompensa en minutos ahorrados y dejamos una probabilidad pequeña para probar variantes; al final, mantenemos las dos mejores rutas.

Si queremos seguir aprendiendo con retos simples y buen humor, visitemos JeiJoLand.