JlA 8×86 IA que entiende la física del mundo

Queremos una IA que no solo pinte escenas, sino que respete gravedad, fricción y el paso del tiempo. El modelo world foundation busca comprender el mundo físico y mantener la coherencia de los objetos en movimiento.

La idea es sencilla de decir y difícil de lograr. Necesitamos que los objetos sigan siendo los mismos a lo largo del tiempo y que su comportamiento sea consistente. Si una taza aparece en una mesa, no debería desaparecer en el siguiente instante por arte de magia. La permanencia de los objetos y la estabilidad temporal son el corazón de este enfoque.

Para que esto funcione fuera del laboratorio, la arquitectura debe escalar. Hablamos de desplegar desde gpus potentes hasta sistemas de bajo consumo en robots y dispositivos del borde. Aquí entran optimización y distilación del modelo para que la inferencia en tiempo real mantenga las leyes físicas sin convertir el hardware en una estufa. Un enfoque maestro y estudiante ayuda: el maestro en la nube aprende con calma y el estudiante reducido actúa con rapidez en el dispositivo.

El entrenamiento mezcla datos reales y sintéticos. Con simulación ganamos cobertura de casos raros y con datos del mundo validamos que la IA no se invente la física. Integramos sensores como lidar, cámaras y unidades inerciales, y practicamos fusión sensorial para entender colisiones, profundidad y contacto. También variamos iluminación, texturas y ruido para que el sistema se adapte a condiciones cambiantes sin perder el norte.

La distilación nos obliga a decidir qué conservar. Guardamos señales que sustentan la causalidad, como trayectorias a lo largo del tiempo, mapas de profundidad y pistas de fricción y rozamiento. Descartamos redundancias y ruido que no aporta a la dinámica. Así reducimos tamaño y consumo sin sacrificar coherencia. Evaluamos con escenarios claros como caída de objetos, empujes y rodaduras para medir si la estabilidad temporal aguanta.

Para construir más rápido, contamos con Nvidia Cosmos en código abierto. Podemos experimentar, añadir cabezas de percepción específicas, adaptar la entrada de sensores y compartir mejoras con la comunidad. Cuanta más diversidad de pruebas tengamos, mejor aprenderá el sistema a generalizar del simulador a la realidad.

Juego breve y útil: grabamos con el móvil una pelota rodando, predecimos dónde se detendrá y por qué, y damos puntos si acertamos distancia y tiempo.

Si queremos seguir explorando cómo aprender jugando y aplicarlo a proyectos reales, visitemos JeiJoLand.