Goku AI: la nueva IA de los creadores de TikTok que está revolucionando el sector

Goku AI es el nuevo modelo de inteligencia artificial creado por ByteDance que genera videos a partir de texto y aunque hemos podido ver ya algunas de este tipo, esta destaca por su calidad de resultados. Además esta cuenta con un código abierto al igual que DeepSeek, lo que significa que cualquiera puede editarlo a través de Github. Sin embargo, actualmente no hay ninguna variación a este modelo debido a que no basta con un simple ordenador para editarla, es necesario un GPU muy potente y unos conocimientos técnicos altos. Otras inteligencias como DALL-E 3 o Stable Diffusion XL han sido populares durante un tiempo por su creación de videos a partir de texto, pero la calidad y realismo de Goku AI les supera con creces.

¿Cómo funciona?

Esta inteligencia funciona con un Transformador de Flujo Rectificado, lo que permite una optimización y eficacia mayor a la hora de generar videos cada vez más reales. Goku AI consigue gracias a esta técnica mejorar la interpolación de fotogramas, reducir el ruido y conseguir una mayor continuidad, haciendo así unas transiciones fluidas y coherentes. En su proceso también usa un renderizado neuronal caracterizado por su redes neuronales artificiales que permiten aprender patrones y generar contenidos visuales realistas. También cuenta con un autoencoder variacional (VAE) que comprime la información para poder procesarla mejor.

Modelo de entrenamiento

Su entrenamiento ha sido con 160 millones de imágenes y 36 millones de videos. Algunos de los filtros usados para seleccionar videos son:

  • Calidad visual: usando modelos de estética para conseguir el mayor realismo en las imágenes
  • OCR (Reconocimiento de texto) : se filtran videos con un texto excesivo para evitar distorsiones en la generación
  • Movimiento: cantidad de este en cada clip para equilibrar las secuencias estáticas y dinámicas

Para un mayor aprendizaje, dividieron su entrenamiento en tres etapas en las que en cada fase este aprendía nuevas habilidades:

  1. En su primera etapa usan imágenes estáticas para así enseñarle a relacionarlas con descripciones de texto, haciendo uso de datasets de gran calidad como LAION. El objetivo de esta fase era que el modero generase imágenes realistas y bien alineadas con el texto
  2. El siguiente paso fue incorporar videos al entrenamiento para que aprendiese a generar secuencias con coherencia temporal. Usaron la técnica Patch n´ Pack que permite entrenar imágenes y videos juntos en un mismo lote de datos sin necesidad de separarlos
  3. Por último se hacen ajustes para mejorar la calidad de las imágenes y del video por separado. En el caso de la imagen mejorando su resolución, detalle y fidelidad al texto y en el del video optimizando su fluidez del movimiento, continuidad de secuencias y estabilidad de los objetos generados.

Al hacer uso de grandes cantidades de recursos se han hecho uso de estrategias avanzadas como el paralelismo 3D, Checkpoints inteligentes y mecanismos de recuperación de fallos para no perder todo el proceso de entrenamiento.

Aplicaciones

Uno de los sectores más beneficiados por esta herramienta sería el de la publicidad, ya que podrán generar contenido sin necesidad de producirlo y de esta manera reducirán sus costos a la mitad. Algunos ejemplos:

  • Anuncios personalizados: en segundos pueden crear un anuncio completamente adaptado a su público y formato
  • Campañas automatizadas en redes sociales: contenido promocional diario sin intervención humana, ajustándola a tendencias, eventos o necesidades de cada red social
  • Publicidad para e-commerce: según el perfil del usuario podrán general imágenes y videos del producto en un entorno personalizado

Otros sectores como el del entretenimiento o el cine no se quedan atrás, aunque ahora mismo vemos un poco distópico la producción de series y películas con este tipo de IA puede ser una realidad dentro de poco. No solo reduciría costos sino que además escenas de animación o efectos visuales podrían ser mucho más realistas e incluso sencillas de hacer.

Referencias

Araque, J. (2025, 12 febrero). Goku AI es oficial: la  nueva inteligencia artificial gratuita de TikTok  que quiere revolucionar las redes sociales. El Español. https://www.elespanol.com/elandroidelibre/noticias-y-novedades/20250212/goku-ai-oficial-nueva-inteligencia-artificial-gratuita-tiktok-promete-revolucionar-redes-sociales/923657963_0.html

Fernández, Y. (2025b, febrero 12). Goku AI: qué es, cómo funciona y qué hace esta inteligencia artificial china de código abierto para la. . . Xataka. https://www.xataka.com/basics/goku-ai-que-como-funciona-que-hace-esta-inteligencia-artificial-china-codigo-abierto-para-creacion-videos
Chen, S., Ge, C., Zhang, Y., Zhang, Y., Zhu, F., Yang, H., Hao, H., Wu, H., Lai, Z., Hu, Y., Lin, T., Zhang, S., Li, F., Li, C., Wang, X., Peng, Y., Sun, P., Luo, P., Jiang, Y., . . . Liu, X. (2025, 7 febrero). GoKu: Flow based Video Generative Foundation Models. arXiv.org. https://arxiv.org/abs/2502.04896

Comentarios

Aún no hay comentarios. ¿Por qué no comienzas el debate?

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *