✨︎ Resumen (TL;DR):
- Netflix publicó bajo licencia comercial Apache 2.0 su primer modelo público de IA.
- En pruebas de usuario con 25 personas, el nuevo sistema superó a Runway siendo el favorito el 64.8% de las veces.
- El software no solo elimina elementos visuales, sino que altera las propiedades de la escena restante para ocultar impactos o efectos físicos.
Netflix liberó su primer modelo público de inteligencia artificial. VOID es un framework de edición que predice y recalcula cómo debe comportarse físicamente un entorno de video una vez que un elemento desaparece. A diferencia de las utilidades tradicionales que solo rellenan el fondo, este sistema de código abierto está disponible para uso comercial bajo la licencia Apache 2.0.
La edición clásica de video tiene un límite. Si borras un elemento en un clip, el software suele cubrir el hueco con un fondo estático. El sistema Video Object and Interaction Deletion (VOID) resuelve los efectos físicos consecuentes.
Por ejemplo, si tienes el video de dos vehículos chocando, puedes borrar uno y el sistema generará una escena donde el coche restante avanza intacto, reemplazando el humo y los escombros por asfalto limpio. Si eliminas a una persona saltando a una alberca, el agua lucirá completamente en calma y sin salpicaduras.

Un flujo impulsado por gigantes tecnológicos
Para alcanzar esta precisión, Netflix construyó un ecosistema de software que integra múltiples modelos: * CogVideoX de Alibaba funciona como el motor principal de difusión. * Gemini 3 Pro de Google analiza la escena para ubicar las áreas críticas. * SAM2 de Meta ejecuta la segmentación específica de los objetos. * Datasets sintéticos de Kubric (Google) y HUMOTO (Adobe) calibraron la detección visual.
Un proceso de razonamiento de lenguaje visual codifica estas zonas afectadas en un “quadmask” que guía al modelo de difusión. La operación cuenta con un segundo pase opcional que utiliza flujo óptico para corregir las distorsiones geométricas en pantalla.
El equipo interno de investigadores, conformado por Saman Motamed, William Harvey, Benjamin Klein, Zhuoning Yuan y Ta-Ying Cheng, colaboró con Luc Van Gool de la Universidad de Sofía. En el documento oficial del proyecto, los autores describen a la inteligencia artificial como “un framework de eliminación de objetos en video diseñado para realizar inpainting físicamente plausible en estos escenarios complejos”.
Hardware necesario y panorama del mercado
Las métricas muestran una ventaja concreta frente a sus rivales directos. En un estudio que incluyó a 25 personas evaluando múltiples escenarios, VOID fue el sistema preferido en el 64.8 por ciento de las comparaciones, dejando atrás el 18.4 por ciento obtenido por Runway.
Cualquier desarrollador puede probar el demo interactivo o descargar el código directamente desde GitHub, arXiv y Hugging Face. El desafío técnico radica en los requerimientos, pues el modelo exige una tarjeta gráfica con un mínimo de 40GB de VRAM para operar de forma local.
Por el momento, Netflix mantiene este proyecto al margen de su negocio principal y no confirmó planes oficiales para integrar el código en las producciones de su plataforma de streaming.
