Aflorithmic obtiene 1,3 millones de dólares por audio como servicio personalizado impulsado por IA

Inicio de SaaS de audio como servicio con sede en Londres y Barcelona Aflorítmico ha recogido $ 1.3 millones en financiamiento inicial de Participaciones de Crowd Media, una empresa con sede en Australia centrada en el “comercio social” y el marketing basados en influencers.

Está tomando una participación del 10% en Aflorithmic, por presione soltar, donde dice que la inversión estratégica tiene como objetivo permitirle ofrecer conversaciones FaceTime con celebridades a través de “la mejor tecnología de clonación de voz de su clase”.

Es posible que Aflorithmic, de dos años, no haya elegido un nombre que se le salga de la boca, pero se trata de hablar y escuchar. Ha construido una plataforma que ofrece una producción de audio escalable y totalmente automatizada mediante el uso de medios sintéticos impulsados por IA, clonación de voz (“ética”) y masterización de audio, que se pueden transmitir a los oídos de las personas a través de sitios web, aplicaciones móviles, altavoces inteligentes, etc. a través de sus API.

“Texto en una hermosa salida de audio” es su conciso eslogan. Antes de la ronda de semillas, dice que había obtenido más de $ 887k en capital externo, incluso a través de una ronda de pre-semilla / FFF / ángel con exceso de suscripción después del arranque durante los primeros 10 meses.

Los clips de muestra en su sitio web ilustran el elemento de personalización con voces en off sintetizadas (con voz de robot) que saludan a un cliente antes de sumergirse en los detalles de cualquier contenido que se haya programado para entregar.

Algunos de los clientes actuales (prueba de concepto / piloto) de Aflorithmic están utilizando sus herramientas para crear audiolibros para niños, para narraciones personalizadas de programas de bienestar / nutrición e incluso un servicio de conserjería de mayordomo robot para los huéspedes del hotel. Su tesis empresarial es que la demanda de audio supera con creces la capacidad de entrega de las locuciones habladas por humanos producidas en el estudio.

Por lo tanto, considera que se necesitarán medios sintetizados para cubrir la brecha de la demanda, ofreciendo infinitas permutaciones de una pista de voz, cada una personalizada para un cliente particular de la marca o empresa. Por ahora, está trabajando en alrededor de 10 proyectos con clientes beta tempranos, enfocados en los sectores de edtech, martech y salud y fitness.

Al mismo tiempo, la popularidad de los podcasts y la transmisión de voz en vivo no muestra signos de disminuir, hablando del poder de permanencia del audio en una era de videos intensos.

El nuevo inversor de Aflorithmic, Crowd Media Holdings, tiene diseños bastante más ambiciosos sobre lo que sus herramientas pueden ayudarlo a hacer, y habla de ‘remodelar completamente la forma en que los consumidores se involucran en el comercio electrónico’.

El impulsor específico de su inversión en Aflorithmic (también conocido como AFLR) es un plan para combinar voz sintetizada con video para permitir que los fanáticos participen en videochats “inmersivos” con versiones simuladas de sus celebridades favoritas.

Participar en la puesta en marcha de audio para asociarse en ese proyecto ayuda a eliminar el riesgo de ese plan, dijo.

“AFLR trae la tecnología de audio que replicará el acento, el tono y los gestos de una celebridad como si la celebridad estuviera al otro lado de una llamada”, escribe Crowd Media, señalando que “el contenido real” la (futura) celebridad clonada susurrará dulcemente to your face será “impulsado por” su propia tecnología de chatbot impulsada por IA, basada en el uso de una base de conocimientos de respuestas creadas a partir de responder a más de 180 millones de preguntas enviadas por usuarios (“a través de medios de solo texto”).

Convertir todo ese texto en una suave voz sintetizada es donde entra Aflorithmic. Mientras que la pieza de video del plan de celebridades clonadas implica imágenes en 3D, y la tecnología para eso la proporcionan otras tres empresas de medios sintéticos (Forever Holdings, con sede en el Reino Unido, creadores de humanos digitales Zoe01 y Uneeq).

En términos más generales, Crowd Media dice que integrará la tecnología de Aflorithmic en otras de sus aplicaciones de comercio social, incluido su chatbot impulsado por IA (CM8), que está dirigido a casos de uso de servicio al cliente en sectores como el marketing, la educación y los sectores de la salud.

Por su parte, Aflorithmic dice que utilizará los nuevos fondos para I + D para su motor de producción de audio API, clonación de voz y adquisición de talento.

Ofrece su audio como servicio basado en API a una variedad de clientes, destacando casos de uso como “boletines y podcasts hiperpersonalizados” y clonación de voz para aplicaciones de marketing.

También promociona una biblioteca de voz “vasta” para que los clientes elijan un altavoz robot. Pero también les permite grabar un fragmento de su propia voz para crear contenido de audio personalizado a través de su IA de clonación de voz.

“Los usuarios pueden componer piezas de calidad profesional que incluyen música e ingeniería de audio compleja, y luego entregar el producto final a cualquier dispositivo o plataforma, como sitios web, aplicaciones móviles o altavoces inteligentes, todo sin ninguna experiencia previa en producción”, escribe.

Al comentar sobre la financiación en un comunicado, Timo Kunz, cofundador y director ejecutivo de Aflorithmic, dijo: “Estamos entusiasmados de aprender de la experiencia de Crowd en el empoderamiento de las empresas para que lleguen a los mercados masivos y nos complace acompañarlas en la definición del futuro. del comercio social. Creemos que la creación de audio tal como la conocemos está dando paso a experiencias de audio automatizadas, escalables y dinámicas, y empresas como la nuestra están a la vanguardia “.

“La producción de audio sintético tiene una gama aparentemente interminable de funciones; el potencial dentro de las aplicaciones de marketing por sí solo es alucinante”, agregó. “Imagínese a Kim Kardashian siendo un comprador personal para cada uno de sus 200 millones de seguidores, o Lewis Hamilton explicando por qué USTED personalmente necesita el nuevo Pirelli P Zero Rosso. Todo esto está a la vuelta de la esquina con nuestra tecnología “.

Sobre el modelo de negocio también nos dijo: “Usamos un modelo SaaS similar a Twilio o Messagebird. Existe una suscripción mensual básica basada en el uso, es decir, las pistas de audio reproducidas. Además de eso, cobramos una suma fija por clonar una voz. Sin embargo, también ofrecemos un nivel gratuito. Para colaboraciones más grandes que tengan un gran aspecto de I + D, negociaremos un precio personalizado “.

Los otros dos cofundadores de Alforithmic son Peadar Coyle y Björn Ühss.

La afirmación de la startup de clonación de voz “ética” apunta a los desafíos inherentes a todas las empresas que trabajan en herramientas comerciales para impulsar la producción de medios sintetizados.

Si bien una celebridad clonada puede parecer un poco divertida, existe un gran potencial de uso indebido y abuso a través de la clonación de voz individual, desde estafas de phishing y robo de identidad hasta manipulación emocional y chantaje. Los derechos de autor son otra consideración.

En un sección de ética de su sitio web Alforithmic ofrece un breve guiño a los riesgos de “hacer escalable el audio personalizado”. “Una gran innovación conlleva una gran responsabilidad”, escribe, y agrega: “Estamos comprometidos con una IA ética, justa y transparente siguiendo las Reino Unidoarena Directrices éticas de la Unión Europea para una inteligencia artificial fiable. Todos nuestros modelos y algoritmos de trabajo y voz solo están capacitados y cuentan con el pleno cumplimiento y aprobación del propietario de los datos individuales “.

Respondiendo a preguntas sobre cómo previene el uso indebido de su tecnología de clonación de voz, Kunz dijo a TechCrunch: “Este es un gran punto. Pensamos en la ética del audio sintético desde el principio y la seguridad es algo que nos tomamos muy en serio y juega un papel clave en nuestras primeras conversaciones con clientes potenciales. Tratamos los datos de voz como información personal sensible y con el mismo cuidado. Todas las voces de los clientes que clonamos deben darnos el consentimiento por escrito del orador original y observamos de cerca cómo lo usan, especialmente en las primeras etapas.

“Además, nuestra infraestructura de API está diseñada de forma segura para permitir el acceso únicamente a los clientes que pagan, que han sido incorporados y examinados por nuestro equipo”.

“No nos subimos a la ola Deep Fake a propósito”, agregó. “No solo tiene connotaciones negativas, sino que tampoco es un uso intencionado de la tecnología”.

En el frente competitivo, la startup apunta a Descript, que recaudó una ronda de $ 30 millones el mes pasado, y adquirió otra startup de clonación de voz, Lyrebird, en 2019, aunque sus herramientas cubren tanto video como audio, en comparación con Alforithmic, que se enfoca más en la automatización. todo el proceso de producción de audio.

“Descript se está posicionando más como una herramienta de creación, lo cual es genial y lo están haciendo fantástico. Sin embargo, no cubren todo el proceso de producción, desde el texto hasta el habla, pasando por la edición de música y sonido hasta la postproducción. Creemos que automatizar este proceso es muy importante. Llevar la producción de audio a la nube permite economías de escala y puede crear una pista de audio diferente para cada oyente ”, dijo Kunz.

“Si bien Descript se centra en una especie de ‘estudio’ como un ‘Photoshop para voz’ para facilitar la edición, nos vemos más como una ‘Banda para audio’, lo que facilita a las empresas la integración de Audio-As-A-Service en sus productos a través de nuestra API en lugar de ‘simplemente editar’.

“Si usa aplicaciones de salud como Peloton como ejemplo, esto les permitiría crear entrenamientos altamente personalizados con mucha facilidad. Podrían incorporar un entrenador de IA hiperpersonalizado al entrenamiento que ayudaría a motivar a los usuarios a dar más y sentir que hay un entrenador personal a su lado que ofrece motivación basada en sus datos de entrenamiento anteriores, récords personales, etc. “

“Con respecto al video, esa fue una elección deliberada”, agregó. “El audio es muy personal y conseguir los matices correctos es muy complejo y difícil. Sin embargo, colaboramos con más de una plataforma de video de IA, proporcionándoles el audio porque descubrieron con dificultad lo desafiante que puede ser el audio sintético “.

Este informe se actualizó con comentarios adicionales de Alforithmic

Source link