Nvidia Video LDM text to video

NVIDIA Video LDM: Crear videos a partir de texto

¿Te imaginas poder crear un video a partir de un texto? ¿Qué tal si pudieras generar una escena de una película con solo escribir una descripción? Pues esto ya es posible gracias a la nueva función de Nvidia que utiliza la inteligencia artificial para pasar de texto a video, llamada Nvidia Video LDM

¿De qué se trata Nvidia Video LDM?

Nvidia es una empresa líder en el desarrollo de tecnologías gráficas. Recientemente, presentó un modelo generativo que puede sintetizar imágenes alineadas en el tiempo en varios fotogramas, creando videos de buena resolución a partir de texto.

¿Cómo funciona? El modelo que usa se llama Latent Diffusion Model (LDM) para crear los videos. LDM consiste en mapear los videos a un espacio latente comprimido y modelar secuencias de variables latentes correspondientes a los fotogramas del video. Stable Diffusion es el modelo que se usa para pre-entrenar el LDM en imágenes y luego se le añade una dimensión temporal para generar videos

Ejemplos con Nvidia LDM

Pero lo más impresionante es que el modelo también puede añadir una dimensión temporal, es decir, generar imágenes que cambian a lo largo del tiempo según el texto. Por ejemplo, si el texto dice “un coche rojo circula por una carretera”, el modelo puede crear un video donde se ve el coche en movimiento y el paisaje alrededor.

El modelo se entrenó con un conjunto de datos llamado WebVid-10M, que contiene 10 millones de videos del mundo real extraídos de YouTube. Sin embargo, también puede generar videos de arte o de objetos que no estaban en los datos originales, gracias a la capacidad del modelo de Stable diffusion para adaptarse a diferentes estilos.

Para generar un video a partir de un texto, solo hay que introducir el texto en el modelo y esperar unos segundos. El modelo puede generar videos con una resolución de hasta 1.280 x 2.048 píxeles y con una duración variable según la tasa de fotogramas

Además, el modelo también se puede personalizar con una herramienta llamada Dreambooth, que permite modificar el contenido del video con solo arrastrar y soltar objetos sobre él. Por ejemplo, se puede añadir un koala o un dragón al video generado.

¿Qué ventajas tiene Nvidia LDM? Esta función de Nvidia tiene muchas aplicaciones potenciales, tanto para la investigación como para la creación de contenidos. Por ejemplo, se podría usar para generar escenarios virtuales para la conducción autónoma, para crear animaciones cortas o para hacer realidad las ideas de los escritores o artistas. Cabe destacar que estas tecnologías recién comienzan y pueden generar muchas imperfecciones e incongruencias en los videos. Aún es un terreno con mucho territorio sin explorar.

Nvidia no es la única en la creación de texto a videos.

Hay otras tecnologías que ya están explorando este campo de crear videos a partir de texto, como Studio D-ID, que nos permite crear nuestro propio avatar, también con stable diffusion, escribir un guion y la IA de Studio D-ID se encargará de darle voz, movimiento y expresiones faciales al personaje.

Otra alternativa es Kaiber. Esta herramienta nos permite crear historias visuales cortas o videos de hasta 4 minutos, añadir música y transformar un video existente. Aunque es diferente a lo que puede hacer Nvidia LDM, ya que la función principal es crear videos a partir de texto, no dejan de ser competidores que pueden crecer muy rápidamente, implementando nuevas funciones, como las de LDM.

Resumen

En resumen, Nvidia ha desarrollado una función de inteligencia artificial que puede pasar de texto a video con una calidad sorprendente. Se trata de un avance impresionante que abre nuevas posibilidades para la generación de imágenes y videos sintéticos. Si quieres saber más sobre esta nueva función, puedes visitar la página oficial de Nvidia Video LDM

Entradas relacionadas

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *