Dasha AI está llamando para que no tenga que hacerlo

Si bien sería difícil encontrar alguna startup no rebosante de confianza sobre la idea disruptiva que persiguen, no es frecuente encontrarse con una empresa joven tan tranquilamente convencida de que está diseñando el futuro como Dasha AI.

El equipo está construyendo una plataforma para diseñar interacciones de voz similares a las humanas para automatizar los procesos comerciales. En pocas palabras, está utilizando IA para hacer que las voces de máquinas sean mucho menos robóticas.

“Lo que definitivamente sabemos es que esto definitivamente sucederá”, dice el CEO y cofundador Vladislav Chernyshov. “Tarde o temprano, la IA de conversación / voz reemplazará a las personas en todas partes donde la tecnología lo permita. Y es mejor para nosotros ser el primero en mover que el último en este campo “.

“Solo en 2018 en los EE. UU. Había 30 millones de personas haciendo algún tipo de tareas repetitivas por teléfono. Podemos automatizar estos trabajos ahora o vamos a poder automatizarlos en dos años ”, continúa. “Si lo multiplica con Europa y los centros de llamadas masivas en India, Pakistán y Filipinas, probablemente tendrá algo así como cerca de 120 millones de personas en todo el mundo … y todos están sujetos a interrupciones, potencialmente”.

La startup con sede en Nueva York ha estado operando en un sigilo relativo hasta ahora. Pero está rompiendo la cobertura hablar con TechCrunch, anunciando una ronda inicial de $ 2 millones, dirigida por RTP Ventures y RTP Global: un inversor en una etapa inicial que ha respaldado a personas como Datadog y RingCentral. El brazo de riesgo de RTP, también con sede en Nueva York, escribe en su sitio web que prefiere empresas fundadas por ingenieros, que “resuelven grandes problemas con la tecnología”. “Nos gusta tecnología, no trucos“, Advierte el fondo con mayor énfasis.

La tecnología central de Dasha en este momento incluye lo que Chernyshov describe como “un motor de modelado de conversación de voz humana a nivel humano”; un motor híbrido de texto a voz que, según él, le permite modelar disfluencias del habla (también conocido como ums y ahs, cambios de tono, etc., que caracterizan la charla humana); más un algoritmo de detección de actividad de voz en tiempo real “rápido y preciso” que detecta el habla en menos de 100 milisegundos, lo que significa que la IA puede tomar turnos y manejar las interrupciones en el flujo de la conversación. La plataforma también puede detectar el género de la persona que llama, una característica que puede ser útil para casos de uso de atención médica, por ejemplo.

Otro componente distintivo de Chernyshov es “una tubería de extremo a extremo para el aprendizaje semi-supervisado”, por lo que puede volver a capacitar a los modelos en tiempo real “y corregir los errores a medida que avanzan”, hasta que Dasha alcance la capacidad conversacional de “nivel humano”. para cada nicho de proceso de negocio. (Para ser claros, la IA no puede adaptar su discurso a un interlocutor en tiempo real, ya que los hablantes humanos naturalmente acercan sus acentos para cerrar cualquier brecha de dialecto, pero Chernyshov sugiere que está en la hoja de ruta).

“Por ejemplo, podemos comenzar con un 70% de conversaciones correctas y luego mejorar gradualmente el modelo hasta el 95% de las conversaciones correctas”, dice sobre el elemento de aprendizaje, aunque admite que hay muchas variables que pueden afectar las tasas de error: No menos importante el entorno de la llamada en sí. Incluso la IA de vanguardia tendrá problemas con una mala línea.

La plataforma también tiene una API abierta para que los clientes puedan conectar la conversación AI en sus sistemas existentes, ya sea telefonía, software de Salesforce o un entorno de desarrollador, como Microsoft Visual Studio.

Actualmente se centran en el inglés, aunque Chernyshov dice que la arquitectura es “básicamente independiente del idioma”, pero requiere “una gran cantidad de datos”.

El siguiente paso será abrir la plataforma de desarrollo a los clientes empresariales, más allá de los 20 beta testers iniciales, que incluyen compañías en los sectores de banca, salud y seguros, con un lanzamiento programado para finales de este año o el primer trimestre de 2020.

Hasta ahora, los casos de uso de prueba incluyen bancos que utilizan el motor de conversación para la gestión de la lealtad de marca para realizar encuestas de satisfacción del cliente que pueden generar comentarios negativos al acelerar la respuesta a una mala calificación, al proporcionar a los agentes de atención al cliente (humanos) una categorización automática de la queja para que puedan hacer un seguimiento más rápido. “Esto generalmente conduce a un efecto sorpresa”, dice Chernyshov.

En última instancia, cree que habrá dos o tres plataformas principales de inteligencia artificial a nivel mundial que proporcionarán a las empresas una capa de conversación automatizada y personalizable, eliminando el mosaico de chatbots que actualmente llenan el vacío. Y, por supuesto, Dasha pretende que su “Asistente digital superhumano” sea uno de esos pocos.

“Claramente no hay plataforma [yet],” él dice. “Dentro de cinco años esto parecerá muy extraño que todas las compañías ahora estén tratando de construir algo. Porque en cinco años será obvio: ¿por qué necesitas todo esto? Solo toma Dasha y construye lo que quieras “.

“Esto me recuerda la situación en la década de 1980 cuando era obvio que las computadoras personales estaban aquí para quedarse porque le daban una ventaja competitiva injusta”, continúa. “Todos los clientes de grandes empresas en todo el mundo … estaban construyendo sus propios sistemas operativos, estaban escribiendo software desde cero, reinventando constantemente la rueda solo para poder crear esta hoja de cálculo para sus contadores.

“Y luego entró Microsoft con MS-DOS … y todo lo demás es historia”.

Eso tampoco es todo lo que están construyendo. El financiamiento inicial de Dasha se destinará al lanzamiento de un producto orientado al consumidor sobre su plataforma b2b para automatizar la detección de llamadas automáticas de mensajes grabados. Entonces, básicamente, están construyendo un asistente de robot que puede hablar y posponer otras máquinas en nombre de los humanos.

Lo que sugiere que el futuro impulsado por la IA implicará una gran cantidad de robots hablando entre ellos … ???

Chernyshov dice que esta aplicación de detección de llamadas b2c probablemente será gratuita. Pero luego, si su tecnología central parece acelerar de forma masiva un fenómeno de llamada no humano que muchos consumidores ya ven como una terrible plaga en su tiempo y mente, entonces proporcionar alivio gratuito, en forma de IA contraria, parece lo menos que debería hacer.

No es que Dasha pueda ser acusada de causar la plaga del robocaller, por supuesto. Los mensajes grabados conectados a los sistemas de llamadas han estado enviando spam a las personas con llamadas no solicitadas durante mucho más tiempo que el inicio.

Las relaciones públicas de Dasha señalan que los estadounidenses fueron golpeados con 26.3BN llamadas automáticas solo en 2018, un 46% “enorme” en 2017.

Mientras tanto, su motor de conversación solo ha realizado algunas llamadas de 3M hasta la fecha, registrando su primera llamada con un humano en enero de 2017. Pero el objetivo a partir de ahora es escalar rápidamente. “Planeamos hacer crecer agresivamente la compañía y la tecnología para que podamos continuar brindando la mejor IA de conversación de voz a un mercado que estimamos que excede los $ 30BN en todo el mundo”, dice una línea desde su RP.

Después del lanzamiento de la plataforma de desarrollador, Chernyshov dice que el siguiente paso será abrir el acceso a los propietarios de procesos de negocios al permitirles automatizar los flujos de trabajo de llamadas existentes sin necesidad de poder codificar (solo necesitarán una comprensión analítica del proceso, dice) )

Más tarde, vinculado a 2022 en la hoja de ruta actual, será el lanzamiento de “la plataforma con curva de aprendizaje cero”, como él dice. “Le enseñarás a Dasha nuevos modelos como si escribieras en un lenguaje natural y lo enseñes como si pudieras enseñar a cualquier miembro nuevo de tu equipo”, explica. “Agregar un nuevo caso en realidad se verá como un editor de palabras, cuando solo estás describiendo cómo quieres que funcione esta IA”.

Su predicción es que una mayoría, alrededor del 60%, de todos los casos importantes que enfrentan las empresas, “como despacho, como ventas al alza, ventas cruzadas, algún tipo de soporte, etc., todos esos casos”, podrán automatizarse “al igual que escribiendo en un lenguaje natural “.

Entonces, si la visión de Dasha impulsada por la inteligencia artificial de la automatización de procesos comerciales basada en la voz se materializa, entonces los humanos que reciben órdenes de magnitud más llamadas de las máquinas parece inevitable, ya que el aprendizaje automático sobrealimenta el habla artificial al hacer que suene más elegante, actúe de manera más inteligente y parezca, bueno, casi humano.

¿Pero tal vez una generación más inteligente de AIs de voz también ayudará a manejar la plaga de 'robocaller' al ofrecer una detección de llamadas avanzada? Y a medida que la tecnología de voz no humana avanza desde mensajes grabados tontos hasta IAs de estilo chatbot que se ejecutan en rieles con guiones para, como lo dice Dasha, motores de conversación totalmente receptivos, emocionantes e incluso sensibles a las emociones que pueden pasar desapercibidos bajo el radar humano, tal vez problema robocaller se comerá solo? Quiero decir, si ni siquiera te das cuenta de que estabas hablando con un robot, ¿cómo te vas a enojar por eso?

Dasha afirma que el 96.3% de las personas que hablan con su IA “piensan que es humano”, aunque no está claro en qué tamaño de la muestra se basa el reclamo. (Para mi oído, hay “avisos” definitivos en las demostraciones actuales en su sitio web. Pero en un escenario de llamada fría no es difícil imaginar que la IA pase, si alguien no está prestando mucha atención).

El escenario alternativo, en un futuro infestado de llamadas de máquina no solicitadas, es que todos los sistemas operativos de teléfonos inteligentes agregan interruptores de interrupción, como el de iOS 13, que permite a las personas silenciar las llamadas de números desconocidos.

Y / o más humanos simplemente nunca atienden llamadas telefónicas a menos que sepan quién está al final de la línea.

Entonces, Dasha tiene un doble conocimiento para crear una IA capaz de administrar las llamadas de los robots, lo que significa que está construyendo su propio recurso, un software dispuesto a conversar con su IA en el futuro, incluso si los humanos reales se niegan.

La aplicación robocall screener de Dasha, que se lanzará a principios de 2020, también será independiente del spammer, ya que también podrá manejar y desviar vendedores humanos, así como robots. Después de todo, un spammer es un spammer.

“Probablemente es el momento de que alguien intervenga y 'no seas malvado'”, dice Chernyshov, haciéndose eco del viejo lema de Google, aunque tal vez no del todo tranquilizador dada la historia caduca de la frase, mientras hablamos sobre el enfoque del equipo para el desarrollo del ecosistema y cómo el chat de máquina a máquina podría superar las llamadas de voz humana.

“En algún momento en el futuro estaremos hablando con varios robots mucho más de lo que probablemente hablemos entre nosotros, porque tendrás algún tipo de robots humanos en tu casa”, predice. “Su médico, jardinero, trabajador del almacén, todos serán robots en algún momento”.

La lógica en el trabajo aquí es que si la resistencia a una Explosión cámbrica del habla artificial impulsada por IA es inútil, es mejor estar a la vanguardia, construir los robots más humanos y hacer que los robots al menos sonar como si les importara.

Las peculiaridades de la conversación de Dasha ciertamente no pueden llamarse un truco. Incluso si la atención cercana del equipo a imitar el florecimiento vocal del habla humana – las disfluencias, las ums y ahs, el tono y los cambios tonales para énfasis y emoción – pueden parecerlo al principio.

En una de las demostraciones en su sitio web, puede escuchar un clip de una voz masculina con un sonido muy agudo, que se identifica a sí mismo como “John de Acme Dental”, atendiendo una llamada de una mujer (humana) y lidiando sin problemas con múltiples interrupciones y la hora / fecha cambia a medida que ella cambia de opinión. Antes, finalmente, lidiando con una cancelación plana.

Una recepcionista humana podría haberse enojado porque la persona que llama esencialmente perdió su tiempo. No John, sin embargo. Oh no. Termina la llamada tan alegremente como comenzó, cerrando con un enfático: “Gracias tú! Y que tengas un buen día. ¡Adiós!”

Si el objetivo final es los niveles de realismo de Turing Test en el habla artificial, es decir, un motor de conversación tan humano que puede pasar de humano a oído humano, debe poder reproducir, con precisión el tiempo, el equipaje verbal que está envuelto alrededor de todo lo que los humanos se dicen unos a otros.

Esta capa tonal realiza un trabajo emocional esencial en el negocio de la comunicación, sombrea y resalta las palabras de una manera que puede adaptarse o incluso transformar por completo su significado. Es una parte integral de cómo nos comunicamos. Y, por lo tanto, un obstáculo común para los robots.

Entonces, si la misión es impulsar una revolución en el habla artificial que los humanos no odiarán y rechazarán, entonces diseñar matices de espectro completo es tan importante como tener un motor de reconocimiento de voz increíble. Un chatbot que no puede hacer todo lo que realmente es el truco.

Chernyshov afirma que el motor de conversación de Dasha es “al menos varias veces mejor y más complejo que [Google] Dialogflow, [Amazon] Lex [Microsoft] Luis o [IBM] Watson “, dejando caer una larga lista de motores de habla rivales en la conversación.

Argumenta que ninguno está a la altura de lo que Dasha está diseñado para hacer.

La diferencia es el “motor de modelado de voz primero”. “Todos aquellos [rival engines] fueron construidos desde cero con un enfoque en chatbots, en texto “, dice, elaborando modelado de conversación de voz” a nivel humano “como mucho más complejo que el enfoque de chatbot más limitado, y por lo tanto, lo que hace a Dasha especial y superior.

“La imaginación es el límite. Lo que estamos tratando de construir es una plataforma de AI de conversación de voz definitiva para que pueda modelar cualquier tipo de interacción de voz entre dos o más seres humanos “.

Google demostró su propia IA de voz tartamudeada, Duplex, el año pasado, cuando también criticó una demostración pública en la que parecía no haberle dicho al personal del restaurante que iban a hablar con un robot.

Sin embargo, Chernyshov no está preocupado por Duplex, diciendo que es un producto, no una plataforma.

“Google recientemente trató de perseguir a uno de nuestros desarrolladores”, agrega, haciendo una pausa para el efecto. “Pero fallaron”.

Él dice que el personal de ingeniería de Dasha representa más de la mitad (28) de su plantilla total (48) e incluye dos doctorados en ciencias; tres doctorados; cinco estudiantes de doctorado; y diez maestros de ciencias en informática.

Tiene una oficina de I + D en ruso que, según Chernyshov, ayuda a que la financiación vaya más allá.

“Más de 16 personas, incluyéndome a mí, son finalistas o semifinalistas de ACM ICPC”, agrega, comparando la competencia con “un juego olímpico pero para programadores”. Un empleado reciente, el principal investigador científico, Dr. Alexander Dyakonov, es a la vez profesor de ciencias y ex Kaggle No.1 GrandMaster en aprendizaje automático. Entonces, con el talento interno de IA como ese, puedes ver por qué Google, eh, llamó …

Dasha

Pero ¿por qué no tener Dasha ID como robot por defecto? Sobre eso, Chernyshov dice que la plataforma es flexible, lo que significa que se puede agregar divulgación. Pero en los mercados donde no es un requisito legal, la puerta se deja abierta para que “John” se deslice alegremente. Cazarecompensas aquí vamos.

La convicción de manejo del equipo es que el énfasis en modelar un discurso similar al humano permitirá, en el futuro, que su IA proporcione interacciones de lenguaje humano-máquina universalmente fluidas y naturales que a su vez abren todo tipo de posibilidades expansivas y poderosas para la próxima generación incorporable Interfaces de voz. Los que son mucho más interesantes que la cosecha actual de gadgets talkies.

Aquí es donde puedes atacar la cultura de ciencia ficción / pop en busca de inspiración. Como Kitt, el auto parlante secamente ingenioso de la serie de televisión de la década de 1980 Jinete caballero. O, para incluir una referencia de la televisión británica, Holly, la autovalorada pero sardónica computadora con rostro humano en Enano Rojo. (O, de hecho, Kryten, el mayordomo androide lleno de culpa.) La sugerencia de Chernyshov es imaginar a Dasha incrustado en un robot de Boston Dynamics. Pero seguramente nadie quiere escuchar gritar esas pesadillas reptantes …

La hoja de ruta de más de cinco años de Dasha incluye la ambición sorprendente de evolucionar la tecnología para lograr “una IA de conversación general”. “Esta es una ciencia ficción en este momento. Es una IA de conversación general, y solo en este punto podrás pasar toda la Prueba de Turing “, dice sobre ese objetivo.

“Debido a que tenemos un reconocimiento de voz a nivel humano, tenemos una síntesis de voz a nivel humano, tenemos un comportamiento generativo no basado en reglas, y esto es todas las partes de esta IA de conversación general. Y creo que podemos hacerlo, y la sociedad científica, podemos lograr esto juntos en 2024 o algo así.

“Luego, el siguiente paso, en 2025, es como una IA autónoma, incrustada en cualquier dispositivo o robot. Y esperamos que para 2025 estos dispositivos estén disponibles en el mercado “.

Por supuesto, el equipo todavía está soñando distancia de ese país de las maravillas / distopía de la IA (según su perspectiva), incluso si está impreso en la hoja de ruta.

Pero si un motor de conversación termina al mando de la gama completa del discurso humano (peculiaridades, objeciones y todo), entonces diseñar una voz AI puede considerarse como un diseño de personaje de TV o personalidad de dibujos animados. Muy lejos de lo que actualmente asociamos con la palabra “robot”. (Y no sería divertido si el término “robótico” significara “hiperactivo” o incluso “especialmente empático” gracias a los avances en IA).

Sin embargo, no nos dejemos llevar.

Mientras tanto, existen dificultades de desconexión del habla de “valle misterioso” para navegar si el tono que se toca (artificialmente) toca una nota falsa. (Y, en ese frente, si no supieras que 'John de Acme Dental' era un robot, se te perdonaría por haber leído mal su signo de astillador en un desperdicio de tiempo total como puro sarcasmo. Pero una IA no puede apreciar la ironía . No todavía, de todos modos.)

Los robots tampoco pueden apreciar la diferencia entre la comunicación verbal ética y no ética que se les pide que lleven a cabo. Las llamadas de ventas pueden cruzar fácilmente la línea de correo no deseado. Y qué hay de los usos aún más distópicos para un motor de conversación que es tan hábil que puede convencer a la gran mayoría de las personas de que es humano, como el fraude, el robo de identidad, incluso la interferencia electoral … los posibles usos indebidos pueden ser terribles y escalar sin cesar.

Aunque si le preguntas directamente a Dasha si es un robot, Chernyshov dice que ha sido programado para confesar que es artificial. Entonces no te dirá una mentira descarada.

Dasha

¿Cómo evitará el equipo los usos problemáticos de una tecnología tan poderosa?

“Tenemos un marco ético y cuando lanzaremos la plataforma implementaremos un sistema de monitoreo en tiempo real que monitoreará posibles abusos o estafas, y también garantizará que las personas no sean llamadas con demasiada frecuencia”, dice. “Esto es muy importante. Que entendamos que este tipo de tecnología puede ser potencialmente peligrosa “.

“En la primera etapa no lo vamos a lanzar a todo el público. Lo vamos a lanzar en una versión alfa o beta cerrada. Y curaremos a las compañías que van a explorar todos los problemas posibles y evitar que sean problemas masivos ”, agrega. “Nuestro equipo de aprendizaje automático está desarrollando esos algoritmos para detectar abusos, spam y otros casos de uso que nos gustaría evitar”.

También hay que considerar la cuestión de los “deepfakes” verbales. Especialmente cuando Chernyshov sugiere que la plataforma, con el tiempo, admitirá la clonación de una huella de voz para usarla en la conversación, abriendo la puerta para hacer llamadas falsas con la voz de otra persona. Lo que suena como un sueño hecho realidad para los estafadores de todo tipo. O una forma de sobrealimentar realmente a su vendedor de mayor rendimiento.

Es seguro decir que las tecnologías de contador, y una regulación reflexiva, serán muy importantes.

Hay pocas dudas de que la IA estará regulada. En Europa, los encargados de formular políticas se encargaron de crear un marco para la IA ética. Y en los próximos años, los formuladores de políticas en muchos países tratarán de descubrir cómo poner barandas en una clase de tecnología que, en la esfera del consumidor, ya ha demostrado su potencial de bola de demolición, con la aceleración automática del spam, la desinformación y la desinformación política. en plataformas de redes sociales.

“Tenemos que entender que en algún momento este tipo de tecnologías estará definitivamente regulado por el estado en todo el mundo. Y nosotros, como plataforma, debemos cumplir con todos estos requisitos “, concuerda Chernyshov, sugiriendo que el aprendizaje automático también podrá identificar si un hablante es humano o no, y que el estado oficial de la persona que llama podría integrarse en un protocolo de telefonía para que la gente no se quede en la oscuridad con la pregunta “bot o no”.

“Debería ser amigable para los humanos. No seas malvado, ¿verdad? “

Cuando se le preguntó si considera qué pasará con las personas que trabajan en centros de atención telefónica cuyos trabajos serán interrumpidos por la IA, Chernyshov es rápido con la respuesta de las acciones: que las nuevas tecnologías también crean empleos, diciendo que eso ha sido cierto a lo largo de la historia humana. Aunque reconoce que puede haber un retraso, mientras que el viejo mundo se pone al día con el nuevo.

El tiempo y la marea no esperan a ningún humano, incluso cuando el cambio suena cada vez más como nosotros.

Source link