OpenAI presenta Sora, la herramienta que crea vídeos instantáneos a partir de texto
La compañía ha mostrado varios ejemplos de esta herramienta, aunque explica que están tomando «medidas de seguridad» antes de ponerla a disposición del público
ChatGPT quiere quitarle a Google su negocio más importante: así piensa hacerlo
Imagen de unos vídeos creados por Sora
Imagina que, simplemente, tecleando unas órdenes en tu ordenador eres capaz de crear, en cuestión de segundos, un vídeo en el que se puede ver a una mujer joven y estilizada caminando por las siempre bulliciosas y luminosas calles del centro de Tokio. O uno ... en el que un puñado de mamuts corren hacia ti y casi amenazan con salir de la pantalla. U otro en el que un explorador espacial con un curioso gorro de lana de color rojo anda estudiando un planeta desconocido. Pues bien, eso es, precisamente, lo que permite al usuario Sora, la nueva plataforma de inteligencia artificial (IA) generativa desarrollada por OpenAI, la empresa detrás del robot conversacional ChatGPT.
La herramienta fue anunciada este jueves a bombo y platillo por la tecnológica a través de las redes sociales. También por su director ejecutivo, Sam Altman, que hasta dedicó unas horas a crear con la herramienta, y compartir en X, algunos de los vídeos que le solicitaban los internautas; entre estos, secuencias de un zoo lleno de cadenas de oro o delirantes carreras de ciclismo protagonizadas por peces.
«Estamos enseñando a la IA a comprender y simular el mundo físico en movimiento, con el objetivo de entrenar modelos que ayuden a las personas a resolver problemas que requieren interacción con el mundo real», explica OpenAI en un comunicado. La tecnológica, que ha puesto patas arriba el negocio y el desarrollo de la inteligencia artificial también apunta que su nueva plataforma «es capaz de generar escenas complejas con múltiples personajes, tipos específicos de movimiento y detalles precisos del sujeto y el fondo», cosa que se demuestra en las imágenes compartidas hasta el momento.
A primera vista, los resultados que ofrece Sora son realmente buenos, y están bastante por encima de lo que se había mostrado hasta la fecha dentro del campo de la creación de vídeos mediante IA generativa. El modelo, dice OpenAI, «comprende no sólo lo que el usuario ha pedido en el mensaje, sino también cómo son esas cosas en el mundo físico», lo que hace que el resultado sea especialmente realista. Ahora bien, la pericia de quien da la orden a la máquina también juega un papel importante a la hora de que el resultado sea el adecuado.
Sora no solo es capaz de generar vídeos a partir de texto. También puede trabajar sobre fotografías que comparta el usuario animándolas y creando secuencias. Además, es capaz de coger un vídeo real -es decir, que no ha sido hecho con IA- y ampliarlo con nuevos fotogramas.
Con todo, la empresa reconoce que la herramienta, por el momento, está lejos de ser perfecta. «Puede tener dificultades para simular con precisión la física de una escena compleja y es posible que no comprenda casos específicos de causa y efecto», explica OpenAI. «Por ejemplo, una persona puede darle un mordisco a una galleta, pero después, es posible que la galleta no tenga la marca del mordisco», prosigue.
«El modelo también puede confundir los detalles espaciales de un mensaje, por ejemplo, mezclando izquierda y derecha, y puede tener dificultades con descripciones precisas de eventos que tienen lugar a lo largo del tiempo, como seguir una trayectoria de cámara específica», remata la empresa poniendo algunos ejemplos. Entre estos, figura un vídeo en el que se puede ver a varios cachorros de lobo gris que aparecen y desaparecen de la escena cuando se rozan unos con otros. También otro en el que aparece una silla de plástico, prácticamente, de la nada durante el desarrollo de una excavación arqueológica en un desierto.
Estaba claro, en todo caso, que Sora no iba a ser perfecto. Ninguna herramienta de IA generativa lo es, ya esté pensada para la creación de texto o de imágenes. Y la creación de vídeo a partir de la nada representa, además, un desafío mucho mayor. «Hay que tener en cuenta que en la generación de vídeos se analizan tres tipos de datos distintos: texto, sonido e imagen. Y eso es mucho más complejo de lo que parece», explicaba recientemente en conversación con ABC Elena González-Blanco, CEO de la empresa de IA generativa española Clibrain.
«Medidas de seguridad importantes»
Eso sí, la empresa explica que está tomando «varias medidas de seguridad importantes antes de que Sora esté disponible en los productos de OpenAI». Actualmente, la herramienta está siendo testada por expertos en áreas como la desinformación y la creación de contenido que incita al odio y al prejuicio con el objetivo de que, cuando esté disponible para todo el mundo, Sora sea lo más segura posible.
Por el momento, OpenAI no ha compartido cuál es el momento concreto en el que cualquier usuario podrá utilizar esta herramienta creativa; aunque, atendiendo al vertiginoso avance de la IA, todo indica que debería ser, simplemente, cuestión de meses. En todo caso, casi con total certeza, antes de que termine el presente 2024.
La empresa, no obstante, ha señalado que está «creando herramientas para ayudar a detectar contenido engañoso, como un clasificador de detección que puede indicar cuándo Sora generó un video». Esto, sobre el papel, podría ayudar a evitar que usuarios malintencionados puedan intentar explotar la herramienta para la generación de estafas o grandes campañas de desinformación. Algo que, sin duda, los cibercriminales intentarán desde el mismo momento en el que la herramienta sea accesible.
Ver comentarios