Spotify tiene planes más grandes para la tecnología detrás de su nueva función AI DJ después de ver una reacción positiva de los consumidores a la nueva función. Lanzado justo antes del evento Stream On de la compañía en Los Ángeles la semana pasada, AI DJ selecciona una selección personalizada de música combinada con comentarios hablados entregados en una voz generada por IA con un sonido realista. Pero bajo el capó, la función aprovecha lo último en tecnologías de inteligencia artificial y modelos de lenguaje grande, así como voz generativa, todo lo cual se superpone a las inversiones existentes de Spotify en personalización y aprendizaje automático.
Spotify cree que estas nuevas herramientas no necesariamente tienen que limitarse a una sola función, razón por la cual ahora está experimentando con otras aplicaciones de la tecnología.
Aunque lo más destacado del evento Stream On de Spotify fue la renovación de la aplicación móvil, que ahora se centra en fuentes de descubrimiento de música, podcasts y audiolibros similares a TikTok, AI DJ ahora es una parte destacada de la nueva experiencia del servicio de transmisión. Presentado a fines de febrero a los suscriptores Premium de Spotify en los EE. UU. y Canadá, el DJ está diseñado para conocer a los usuarios tan bien que podría reproducir lo que quieras escuchar con solo presionar un botón.
Con la renovación de la aplicación, el DJ aparecerá en la parte superior de la pantalla debajo de la subalimentación de Música para los suscriptores, y servirá como una forma relajada de transmitir su música favorita y como un medio para alentar a los usuarios gratuitos a actualizarse.
Para crear los comentarios que acompañan a la música que transmite el DJ, Spotify dice que aprovechó la base de conocimientos y las perspectivas de sus propios expertos en música. Usando la tecnología de inteligencia artificial generativa de OpenAI, el DJ puede escalar sus comentarios a los usuarios finales de la aplicación. Y a diferencia de ChatGPT, que está tratando de crear respuestas destilando la información que se encuentra en la web, la base de datos más limitada de conocimientos musicales de Spotify garantiza que los comentarios del DJ terminen siendo relevantes y precisos.
Las selecciones de música reales elegidas por el DJ provienen de su comprensión actual de los gustos e intereses de un usuario, lo que refleja lo que antes se programaba en listas de reproducción personalizadas, como Discover Weekly y otras.
Mientras tanto, la voz del AI DJ se creó utilizando la tecnología que Spotify adquirió de Sonatic el año pasado y se basa en la del jefe de asociaciones culturales de Spotify, Xavier “X” Jernigan, presentador del ahora desaparecido podcast matutino de Spotify, “The Get Up”. Sorprendentemente, la voz suena increíblemente realista y nada robótica. (Durante el evento en vivo de Spotify, Jernigan habló junto a su doble de IA y las diferencias fueron difíciles de detectar. “Puedo escuchar mi voz todo el día”, bromeó).
“La razón por la que suena tan bien es en realidad el objetivo de la tecnología Sonatic, el equipo que adquirimos. Se trata de la emoción en la voz”, explica el jefe de personalización de Spotify, Ziad Sultan, en una conversación con TechCrunch después de que terminó Stream On. “Cuando escuches al AI DJ, escucharás dónde está la pausa para respirar. Escucharás las diferentes entonaciones. Puedes escuchar entusiasmo por ciertos tipos de géneros”, dice.
Una voz de IA con sonido natural no es nueva, por supuesto: Google cautivó al mundo con su propia creación de IA con sonido humano hace años. Pero su implementación dentro de Duplex generó críticas, ya que la IA llamó a las empresas en nombre del usuario final, inicialmente sin revelar que no era una persona real. No debería haber una preocupación similar con la función de Spotify, dado que incluso se llama un “DJ de IA”.
Para hacer que la voz de IA de Spotify suene natural, Jernigan entró en el estudio para producir grabaciones de voz de alta calidad, mientras trabajaba con expertos en tecnología de voz. Allí, se le indicó que leyera varias líneas usando diferentes emociones, que luego se introducen en el modelo de IA. Spotify no dijo cuánto tiempo toma este proceso, ni detalló los detalles, señaló que la tecnología está evolucionando y se refirió a ella como su “salsa secreta”.
“A partir de esa entrada de alta calidad que tiene muchas permutaciones diferentes, [Jernigan] entonces ya no necesita decir nada, ahora es puramente generado por IA”, dice Sultan sobre la voz generada. Aún así, Jernigan a veces aparece en la sala de escritores de Spotify para ofrecer comentarios sobre cómo leyó una línea para asegurarse de que tiene comentarios continuos.
Créditos de imagen: Captura de pantalla de Spotify
Pero mientras que AI DJ se construye utilizando una combinación de tecnología Sonatic y OpenAI, Spotify también está invirtiendo en investigación interna para comprender mejor lo último en IA y modelos de lenguaje grande.
“Tenemos un equipo de investigación que trabaja en los últimos modelos de lenguaje”, le dice Sultan a TechCrunch. De hecho, tiene unos cientos trabajando en personalización y aprendizaje automático. En el caso de AI DJ, el equipo está utilizando el modelo OpenAI, señala Sultan. “Pero, en general, contamos con un gran equipo de investigación que comprende todas las posibilidades de los modelos de lenguaje extenso, de la voz generativa y de la personalización. Esto es rápido”, dice. “Queremos ser conocidos por nuestra experiencia en IA”.
Sin embargo, Spotify puede usar o no su propia tecnología interna de IA para impulsar desarrollos futuros. Puede decidir que tiene más sentido trabajar con un socio, como lo está haciendo ahora con OpenAI. Pero es demasiado pronto para decirlo.
“Estamos constantemente publicando artículos”, dice Sultan. “Invertiremos en las últimas tecnologías; como puede imaginar, en esta industria, los LLM son esa tecnología. Así que estaremos desarrollando la experiencia”.
Con esta tecnología fundamental, Spotify puede avanzar hacia otras áreas que involucran IA, LLM y tecnología de IA generativa. En cuanto a cuáles pueden ser esas áreas en términos de productos de consumo, la compañía aún no lo dice. (Sin embargo, hemos escuchado que un chatbot similar a ChatGPT se encuentra entre las opciones con las que se está experimentando. Pero nada está resuelto en términos de lanzamiento, ya que es un experimento entre muchos otros).
“No hemos anunciado los planes exactos de cuándo podríamos expandirnos a nuevos mercados, nuevos idiomas, etc. Pero es una tecnología que es una plataforma. Podemos hacerlo y esperamos compartir más a medida que evolucione”, dice Sultan.
Los primeros comentarios de los consumidores sobre la IA son prometedores, dice Spotify
La empresa no quería desarrollar un conjunto completo de productos de IA porque no estaba segura de cuál sería la reacción del consumidor ante el DJ. ¿La gente querría un DJ con IA? ¿Se comprometerían con la función? Nada de eso estaba claro. Después de todo, el asistente de voz de Spotify (“Hey Spotify”) había sido cancelado por falta de adopción.
Créditos de imagen: Captura de pantalla de Spotify
Pero hubo señales tempranas de que la función de DJ podría funcionar bien. Spotify había probado el producto internamente entre los empleados antes de su lanzamiento, y las métricas de uso y reenganche habían sido “muy, muy buenas”.
La adopción pública, hasta ahora, coincide con lo que vio Spotify internamente, nos dice Sultan. Eso significa que existe la posibilidad de desarrollar productos futuros utilizando los mismos cimientos subyacentes.
“La gente pasa horas al día con este producto… les ayuda con las elecciones, con el descubrimiento, les narra la próxima música que deben escuchar y les explica por qué… así que la reacción: si revisa varias redes sociales, verá que es muy positivo, es emotivo”, dice Sultan.
Además, Spotify compartido que, en los días que los usuarios sintonizaron, pasaron el 25% de su tiempo escuchando con el DJ, y más de la mitad de los oyentes por primera vez vuelven a usar la función al día siguiente. Sin embargo, estas métricas son tempranas, ya que la función aún no se implementa al 100% en los EE. UU. y Canadá. Pero son prometedores, cree la compañía.
“Creo que es un paso increíble en la construcción de una relación entre productos y usuarios realmente valiosos”, dice Sultan. Pero advierte que el desafío por delante será “encontrar la aplicación correcta y luego construirla correctamente”.
“En este caso, dijimos que se trataba de un DJ de música con IA. Creamos la sala de escritores para ello. Lo ponemos en manos de los usuarios para que haga exactamente el trabajo que debe hacer. Está funcionando súper bien. Pero definitivamente es divertido soñar con qué más podemos hacer y qué tan rápido podemos hacerlo”, agrega.
Source link