26/02/2025 11:12:27

Alibaba imita a DeepSeek y publica su IA de generación de vídeos en código abierto

Alibaba sigue los pasos de DeepSeek y ha publicado en código abierto, es decir, de forma gratuita, sus modelos de inteligencia artificial (IA) para la generación de vídeos. Con esta medida, el gigante del comercio electrónico chino aumenta la competencia con otros rivales como OpenAI.

Esta iniciativa abarca a cuatro modelos de la serie Wan2.1, la última iteración de su modelo de base de video Tongyi Wanxiang (Wan).

"Los cuatro modelos, que incluyen T2V-14B, T2V-1.3B, I2V-14B-720P e I2V-14B-480P, están diseñados para generar imágenes y videos de alta calidad a partir de entradas de texto e imagen", ha detallado.

La compañía ha explicado que están disponibles para descargar en la comunidad de modelos de IA de Alibaba Cloud, Model Scope, y en la plataforma de IA colaborativa Hugging Face, a la que pueden acceder académicos, investigadores e instituciones comerciales de todo el mundo.

Cabe recordar que la serie Wan2.1, presentada a principios de este año, es el primer modelo de generación de video que admite efectos de texto tanto en chino como en inglés. Se destaca en la generación de imágenes realistas al manejar con precisión movimientos complejos, mejorar la calidad de los píxeles, adherirse a los principios físicos y optimizar la precisión de la ejecución de instrucciones.

De este modo, el modelo T2V-14B es más adecuado para crear imágenes de alta calidad con una dinámica de movimiento sustancial. Por el contrario, el modelo T2V-1.3B equilibra la calidad de generación y la potencia computacional, lo que lo hace ideal para una amplia gama de desarrolladores que realizan desarrollo secundario e investigación académica. Por ejemplo, el modelo T2V-1.3B permite a los usuarios con computadoras portátiles personales estándar generar un video de 5 segundos de duración con una resolución de 480p en tan solo 4 minutos.

Los modelos I2V-14B-720P e I2V-14B-480P admiten la generación de texto a video y ofrecen capacidades de conversión de imagen a video. Para generar contenido de video dinámico, los usuarios solo deben ingresar una sola imagen junto con una breve descripción de texto. La plataforma admite entradas de imágenes de tamaño normal de cualquier dimensión.

"Hasta el momento, se han desarrollado más de 100.000 modelos derivados basados en la familia de modelos Qwen en Hugging Face, lo que la convierte en una de las familias de modelos de IA más destacadas del mundo", ha subrayado la empresa.

De hecho, Alibaba planea invertir, al menos, 380.000 millones de yuanes (53.000 millones de dólares) en los próximos tres años para impulsar su infraestructura de inteligencia artificial (IA) y de computación en la nube.

Con esta inversión refuerza su compromiso con la innovación tecnológica a largo plazo. "La inversión, que supera el gasto total de Alibaba en inteligencia artificial y nube durante la última década, subraya el enfoque de la empresa en el crecimiento impulsado por la inteligencia artificial y su papel como proveedor líder mundial de servicios en la nube".