28 de noviembre de 2022

Mediante la implementación de esta IA de Meta puede generar vídeos a partir de texto, y su potencial es sorprendente

Hace apenas unos meses, hablábamos con emoción y sorpresa de aquellas IAs capaces de generar imágenes a través de texto. Ahora, parece que la tecnología ha avanzado a pasos agigantados, y es que ya tenemos modelos capaces de crear vídeos basándose en la misma premisa. Así, Meta nos presenta a su inteligencia artificial Make-A-Video, y los vídeos que genera son tan sorprendentes como espeluznantes.

Al igual que ya sucede con otros modelos parecidos, Make-A-Video te invita a introducir una descripción de lo que quieras generar. Por lo tanto, tras escribir «Un perro vistiendo con una capa de superhéroe roja y volando por el cielo», obtendrás el resultado que esperas. Eso sí, ten en cuenta que la tecnología todavía está en pañales, así que los vídeos generados podrían ser cuando menos interesantes.

Make-A-Video todavía no está disponible al público. No obstante, algunos ya han podido darle una probada. A pesar de lo reciente que es, los resultados son impresionantes, y no podemos esperar a ver cómo avanzará esta inteligencia artificial con el paso de los años. Al igual que sucede con las IAs generadoras de imágenes, pronto podrían sustituir a algunos campos bastante populares de internet, como son los bancos de imágenes y vídeos.

-«Oye, Make-A-Video, quiero que dibujes a una pareja bajo la lluvia»

Meta ha logrado desarrollar una poderosa herramienta. Eso sí, para que esta inteligencia artificial corra, estarían usando ordenadores muy potentes. Recordemos que aquellas IAs capaces de generar imágenes ya requerían de grandes recursos técnicos; ahora, una capaz de transformar el texto en vídeo necesita muchísimos más.

¿Por qué tanta potencia? No hay que olvidar que los vídeos no son más que una serie de imágenes juntas, y con sonido embebido. Ahora, imagina todo el tiempo que necesita una IA para generar una sola imagen, y multiplícalo por la cantidad de fotogramas presentes en un minuto de vídeo (pueden llegar a ser miles). A esto, suma el hecho de tener que juntar todas estas imágenes generadas en un mismo archivo. Sin duda, es una locura.

Según Tanmay Gupta, científico investigador de visión computacional en el Instituto Allen para Inteligencia Artificial, los resultados mostrados por la IA Make-A-Video de Meta son bastante prometedores. Además, se demuestra la capacidad que tiene el modelo para capturar objetos en 3D, ya que a medida que la cámara va rotando, se muestran nuevos detalles del sujeto y fondo. Asimismo, esto demuestra que la IA es capaz de diferenciar la profundidad y las fuentes de luz.

Sin embargo, Gupta agrega que «hay mucho margen de mejora para la comunidad investigadora, especialmente si estos sistemas se van a utilizar para la edición de vídeo y la creación de contenidos profesionales». Agrega, además, que a esta tecnología todavía le cuesta el generar interacciones entre objetos en escena.

«La investigación de Make-A-Video se basa en los recientes avances de la tecnología de generación de texto a imagen, construida para permitir la generación de texto a vídeo. El sistema utiliza imágenes con descripciones para aprender cómo es el mundo y cómo se suele describir.

También utiliza vídeos sin etiquetar para aprender cómo se mueve el mundo. Con estos datos, Make-A-Video te permite dar vida a tu imaginación generando vídeos caprichosos y únicos con solo unas pocas palabras o líneas de texto.»

Meta

-Meta ha desarrollado una IA sorprendente

Uno de los aspectos más sorprendentes de esta inteligencia artificial, es su capacidad de crear sin requerir datos emparejados de texto y vídeo. Hasta ahora, muchos generadores de imágenes se basaban en galerías de contenido, las cuales ya vinculaban textos y vídeos. Make-A-Video, no obstante, no requiere de tanta infromación para funcionar, lo que demuestra una ventaja significativa.

Esta IA se puede utilizar de varias formas. Desde dar movimiento a una simple imagen, hasta llenar de movimiento una secuencia de ellas. Además, también puede crear variaciones de vídeos a partir de un original. El estilo que requieras, al igual que sucede con DALL-E o Midjourney, depende de tu imaginación.