Justo antes de hablar por teléfono el viernes por la tarde, Andrew Mason, quien en ese entonces dirigía una startup de recorridos a pie llamada Detour y dirigía Groupon, estaba corrigiendo a mano la transcripción de un discurso de John F. Kennedy, que fue transcrito por un nuevo software que él y su equipo construido internamente.
Pero Describir, el nuevo inicio de Mason que se deriva de Detour, no está diseñado para transcribir audio (incluso audio malo, como una grabación del discurso de JFK). En cambio, el objetivo de Descript es tomar esa transcripción, ponerla en un documento de Word y permitir que un editor o productor edite el archivo de sonido de la misma manera que un escritor editaría un documento de Word. Cuando recorta una palabra en la transcripción, la recorta en el archivo de sonido. Y si todo va bien, cuando agregue una palabra, también terminará en el archivo de sonido. Para hacer todo esto, Mason y su equipo han recaudado $5 millones en fondos de Andreessen-Horowitz para comenzar por su cuenta.
“Nos vemos presionando en parte el botón de reinicio sobre cómo se producen los medios para permitir una nueva era de producción de medios impulsada por IA, donde la IA es una especie de compañera en el proceso”, dijo Mason. “Al tener ese acoplamiento de esas dos formas de información, te permite procesar el lenguaje natural y comprender la intención del audio, lo que abre todo tipo de posibilidades cuando piensas en la síntesis de medios impulsada por IA. Imagina subrayar algo con música generada por una IA. Todo eso está por venir, y vemos a Descript como la base para ello”.
El editor Descript es un producto bastante sencillo: es un documento de Word que corresponde a un archivo de sonido. En lugar de sumergirse en un software diseñado para editar productos de sonido como podcasts, Descript tiene como objetivo crear una interfaz simple de lo que ves es lo que obtienes que esperarías cuando abres Google Docs o algo por el estilo. Está diseñado para ser simple al imitar un documento de texto, lo cual tiene sentido, dadas décadas de refinamiento, desarrollo y pruebas, nos llevaron a un documento en blanco vacío en un navegador para todos los propósitos de escritura.
Los orígenes de Descript están dentro de Detour: las grabaciones de las sesiones eran cortas, pero la edición podía llevar horas o incluso días para terminar con un producto de alta calidad para Detour. Y eso también suponiendo que no tuvieran que traer a alguien de regreso a un estudio de grabación. En lugar de encontrar formas de cortar y copiar archivos de sonido, Descript fue diseñado para esos pequeños cambios molestos que podría tener que hacer para que algo suene más limpio. Tiene un precio similar al de algunos servicios de transcripción hoy en día por minuto, cobrando 7 centavos por minuto (o 99 centavos por minuto para que alguien lo haga a mano).
“El procesador de textos es la última herramienta del artesano, lo aprendes desde el principio y listo”, dijo Mason. “No es así si estás en audio o video. Estás en un viaje constante para mantenerte al día con la tecnología. Si estás escribiendo un artículo y hay una oración que no te gusta, la vuelves a escribir, no lo piensas dos veces”.
Describir, también, suena como una venta más fácil como producto, o incluso como negocio. En lugar de convencer a alguien para que literalmente tome un desvío, Mason y su equipo solo tienen que entrar a la oficina de un productor y ofrecer una demostración rápida. Si funciona en el momento, las implicaciones de una tecnología como esa son bastante claras, ya sea que funcionen con podcasts, radio o cualquier otro tipo de medio hablado. Y hay muchas implicaciones que también podrían surgir en el futuro, como la actuación de voz. Hay algunos otros proyectos interesantes en el área de la imitación de voz, como Lyrebird, aunque la historia aún no se ha desarrollado completamente aquí.
Aunque está dirigido a editores y otras organizaciones de medios, el punto final natural de un producto como Descript parece ser uno en el que podría escribir un documento y terminar en la voz de alguien. Y como esta tecnología continúa mejorando, ciertamente habrá desafíos para ayudar a garantizar que las personas no usen este tipo de tecnología (aunque Mason dice que no será a través de Descript) con fines maliciosos. Sin embargo, al final, no es diferente a los grandes cambios anteriores en la forma en que se producen y se pueden editar los medios.
“Nos dirigimos rápidamente hacia un futuro donde el contenido de audio y video, su credibilidad se reduce a la fuente de la misma manera que lo es para las fotos y la impresión”, dijo Mason. “Ha sido así para la impresión durante mucho tiempo, ha sido así para las fotos durante los últimos 10 a 20 años. Pronto será así para el audio y el video, y tal como lo hizo la sociedad antes, una vez más se recalibrará sobre cómo verificar lo que es real. Este caso de uso es realmente para que las personas produzcan su propio contenido. Hay controles que podemos implementar para hacer eso”.
Source link