¿Qué pasa si ya no necesitamos cámaras para hacer videos y, en cambio, podemos generarlos a través de unas pocas líneas de codificación?
Los avances en el aprendizaje automático están convirtiendo la idea en realidad. Hemos visto cómo los deepfakes intercambian caras en las fotos familiares y convierten las selfies en famosos videoclips. Ahora, los emprendedores con experiencia en investigación de inteligencia artificial están ideando herramientas para permitir que las personas generen fotos, voces y videos muy realistas utilizando algoritmos.
Una de las startups que está desarrollando esta tecnología es Surreal, con sede en China. La compañía tiene solo tres meses, pero ya ha obtenido una ronda inicial de $ 2-3 millones de dos inversionistas prominentes, Sequoia China y ZhenFund. Surreal recibió casi 10 ofertas de inversión en esta ronda, dijo el fundador y CEO Xu Zhuo a TechCrunch, mientras los inversores se apresuraban a apostar por un futuro moldeado por contenido generado por IA.
Antes de fundar Surreal, Xu pasó seis años en Snap, desarrollando su sistema de recomendación de anuncios, plataforma de aprendizaje automático y tecnología de cámara AI. La experiencia convenció a Xu de que los medios sintéticos se convertirían en la corriente principal porque la herramienta podría “reducir significativamente el costo de producción de contenido”, dijo Xu en una entrevista desde la oficina de 12 personas de Surreal en Shenzhen.
Sin embargo, Surreal no tiene la intención de reemplazar a los creadores o artistas humanos. De hecho, Xu no cree que las máquinas puedan superar la creatividad humana en las próximas décadas. Esta creencia está incorporada en el nombre chino de la empresa, Shi Yun, o The Poetry Cloud. Está tomado del título de una novela del escritor de ciencia ficción Liu Cixin, quien cuenta la historia de cómo la tecnología no logra superar al antiguo poeta chino Li Bai.
“Tenemos una fórmula interna: la narración visual es igual a la creatividad más la creación”, dijo Xu, con los ojos iluminados. “Nos enfocamos en la parte de hacer”.
En cierto modo, la generación de video por máquina es como una herramienta de video mejorada, un paso adelante de los filtros de video que vemos hoy y hace que Douyin (la versión china de TikTok) y Kuaishou sean populares. Las aplicaciones de video breves reducen significativamente la barrera para hacer un video de aspecto profesional, pero aún requieren una cámara.
“El corazón de los videos cortos definitivamente no es el formato de video corto en sí. Se trata de tener una mejor tecnología de cámara, lo que reduce el costo de la creación de videos ”, dijo Xu, quien fundó Surreal con Wang Liang, un veterano de la empresa matriz de TikTok, ByteDance.
Comercializando deepfakery
Algunas de las firmas de tecnología más grandes del mundo, como Google, Facebook, Tencent y ByteDance, también tienen equipos de investigación que trabajan en GAN. La estrategia de Xu no es enfrentarse directamente a los pesos pesados, que se sienten atraídos por contratos de gran envergadura. Más bien, Surreal busca clientes pequeños y medianos.
El software de Surreal es actualmente solo para clientes empresariales, que pueden usarlo para cambiar caras en el contenido cargado o generar una imagen o video completamente nuevo. Xu llama a Surreal un “Traductor de Google para videos”, ya que el software no solo puede intercambiar las caras de las personas, sino también traducir los idiomas que hablan en consecuencia y hacer coincidir sus labios con las voces.
A los usuarios se les cobra por video o imagen. En el futuro, Surreal apunta no solo a animar rostros, sino también a la ropa y los movimientos de las personas. Si bien Surreal se negó a revelar su desempeño financiero, Xu dijo que la compañía ha acumulado alrededor de 10 millones de pedidos de fotos y videos.
Gran parte de la demanda ahora proviene de exportadores chinos de comercio electrónico que utilizan Surreal para crear modelos occidentales para su material de marketing. Contratar modelos extranjeros reales puede ser costoso y emplear modelos asiáticos no resulta tan efectivo. Mediante el uso de “modelos” surrealistas, algunos clientes han podido lograr un retorno de la inversión (ROI) del 100%, dijo Xu. Con el financiamiento semilla multimillonario en su bolsillo, Surreal planea encontrar más casos de uso como educación en línea para poder recopilar grandes volúmenes de datos para mejorar su algoritmo.
Territorio inexplorado
La tecnología que impulsa a Surreal, llamada redes generativas de confrontación, es relativamente nueva. Introducido por el investigador de aprendizaje automático Ian Goodfellow en 2014, los GAN consisten en un “generador” que produce imágenes y un “discriminador” que detecta si la imagen es falsa o real. La pareja entra en un período de entrenamiento con roles adversarios, de ahí la nomenclatura, hasta que el generador entrega un resultado satisfactorio.
En las manos equivocadas, las GAN pueden explotarse con fines de fraude, pornografía y otros fines ilegales. Esa es, en parte, la razón por la que Surreal comienza con el uso empresarial en lugar de ponerlo a disposición de usuarios individuales.
Empresas como Surreal también están planteando nuevos desafíos legales. ¿Quién es el propietario de las imágenes y los videos generados por la máquina? Para evitar violar los derechos de autor, Surreal requiere que el cliente tenga derecho al contenido que cargue para moderación. Para rastrear y prevenir el uso indebido, Surreal agrega una marca de agua encriptada e invisible a cada parte del contenido que genera, del cual reclama la propiedad. Existe una extraña posibilidad de que la “persona” que produce Surreal coincida con alguien en la vida real, por lo que la compañía ejecuta un algoritmo que cruza todas las caras que crea con las fotos que encuentra en línea.
“No creo que la ética sea algo que Surreal pueda abordar, pero estamos dispuestos a explorar el tema”, dijo Xu. “Básicamente, creo [synthetic media] proporciona una infraestructura disruptiva. Aumenta la productividad y, a nivel macro, es inexorable, porque la productividad es el determinante clave de problemas como este ”.
Source link