Nos hemos propuesto sustituir al presentador con un flujo de herramientas abiertas en un ordenador normal para producir un video. En pocas horas montamos un avatar digital con ia entrenado con veinte imágenes y una hora de voz.
La idea es sencilla y potente. Partimos de un prompt para sacar un guion, generamos imágenes con Flux, convertimos el texto en audio con una voz sintética y creamos clips combinando imágenes y locución. Rematamos con sincronización labial y un posprocesado ligero. Todo corre en local, sin nube cara, con software de código abierto y hardware doméstico.
Primer paso, el guion. Usamos un modelo de lenguaje para transformar un prompt en un texto claro, con estructura de bloques y duración estimada. Afinamos el tono, añadimos ejemplos y revisamos términos técnicos para que cualquiera pueda seguirlo sin perderse.
Segundo paso, las imágenes. Con Flux producimos retratos consistentes del presentador y planos de apoyo. Ajustamos estilo, encuadre y luz para mantener coherencia entre tomas. Cuando hace falta, reforzamos la identidad facial con técnicas de restauración y control de rasgos.
Tercer paso, la voz. A partir de una hora de audio entrenamos un clon de voz y luego sintetizamos la locución del guion. Antes limpiamos respiraciones y ruidos, y añadimos una guía de pronunciación para nombres de herramientas y jerga informática. Resultado natural, con pausas y entonación.
Cuarto paso, el video. Un generador de video monta clips a partir de las imágenes clave y el audio final. Definimos ritmo, planos, transiciones suaves y metemos planos de recurso cuando el discurso lo pide. Buscamos fluidez sin hacer esperar.
Quinto paso, la sincronización. Aplicamos un modelo de lip sync que alinea labios y locución. Después pasamos por estabilización, reducción de ruido, realce de piel y escalado cuando conviene. La mejora es notable, sobre todo en escenas con movimiento.
Ahora, lo delicado. Con una imagen y algo de audio es posible fabricar videos falsos y convincentes. Riesgos claros: desinformación, suplantación y daño reputacional. Medidas mínimas que adoptamos siempre: consentimiento explícito por escrito, avisos visibles de contenido sintético, marcas de agua y metadatos abiertos, almacenamiento seguro de datos y revisión humana antes de publicar. Si dudamos, no publicamos.
Qué tal se ve esto frente a soluciones privativas. Las opciones de pago suelen clavar microgestos y piel con más realismo, además de ofrecer herramientas pulidas. A cambio dependen de la nube y cuestan. Con alternativas abiertas ganamos control, privacidad y posibilidad de ajustar el flujo, aunque a veces aparezcan artefactos que exigen más cariño en edición.
Propuesta de juego. Diseñemos un clip educativo de un minuto sobre un tema de informática, con guion propio y consentimiento de la voz usada. Puntúa claridad, sincronía y ética, y comparte el flujo y los parámetros para que otros lo repliquen.
Si te interesa experimentar y aprender jugando con estas técnicas, te invitamos a visitar JeiJoLand.