La startup surcoreana Cochlear.ai recauda $ 2 millones de la Serie A para detectar los sonidos perdidos por el reconocimiento de voz

La startup surcoreana Cochlear.ai recauda $ 2 millones de la Serie A para detectar los sonidos perdidos por el reconocimiento de voz

Siéntate en silencio por un momento y presta atención a los diferentes sonidos que te rodean. Es posible que escuche pitidos de electrodomésticos, bocinas de automóviles, ladridos de perros, estornudos de alguien. Estos son todos los ruidos Cochlear.ai, una startup de reconocimiento de sonido con sede en Seúl, está entrenando su plataforma SaaS para identificar. El objetivo de la compañía es desarrollar un software que pueda identificar casi cualquier tipo de sonido y usarse en una amplia gama de hardware inteligente, incluidos teléfonos, parlantes y automóviles, dijo a TechCrunch el cofundador y director ejecutivo Yoonchang Han.

Cochlear.ai anunció que ha recaudado $2 millones en fondos de la Serie A, liderados por Smilegate Investment, con la participación de Shinhan Capital y NAU IB Capital. Esto lleva su financiación total hasta ahora a $ 2,7 millones, incluida una ronda inicial de Kakao Ventures, el brazo de inversión del gigante de Internet de Corea del Sur. Cochlear.ai utilizará su Serie A en la contratación durante los próximos 18 meses y para aumentar el conjunto de datos de sonidos utilizados para entrenar sus algoritmos de aprendizaje profundo.

La compañía fue fundada en 2017 por un equipo de seis científicos investigadores de música y audio, incluido Han, quien completó su doctorado en recuperación de información musical en la Universidad Nacional de Seúl. Mientras trabajaba en su doctorado, Han descubrió que “todo el mundo se estaba centrando realmente en los sistemas de reconocimiento de voz. Hay tantas compañías para eso, pero analizar otros tipos de sonidos es técnicamente muy diferente al reconocimiento de voz”.

La tecnología de reconocimiento de voz generalmente reconoce una o dos voces a la vez y asume que las personas están participando en una conversación, en lugar de hablar entre sí. También utiliza el conocimiento lingüístico en el procesamiento posterior para aumentar la precisión. Pero con la música o los ruidos ambientales, los diferentes tipos de sonidos suelen superponerse.

“Tenemos que tener cuidado con todos los diferentes rangos de frecuencia, y no solo hay voces, sino miles de sonidos”, dijo Han. “Así que creemos que esta será la próxima generación de reconocimiento de sonido, y esa fue la motivación para nuestra puesta en marcha”.

El SaaS de Cochlear.ai, llamado Cochl.Sense, está disponible como API en la nube y SDK de borde, y actualmente puede detectar alrededor de 40 sonidos diferentes, que se agrupan en tres categorías: detección de emergencia (que incluye rotura de cristales, gritos y sirenas), interacción humana (que incluye el uso de chasquidos de dedos, aplausos o silbidos para interactuar con el hardware) y el estado humano (para identificar sonidos como tos, estornudos o ronquidos para casos de uso como monitoreo de pacientes o subtítulos de audio automáticos).

Han dijo que la compañía también planea agregar una nueva funcionalidad a Cochl.Sense para uso en hogares (incluidos parlantes inteligentes), vehículos y análisis de música. La flexibilidad de Cochl.Sense significa que puede adaptarse potencialmente a muchos casos de uso, incluida la conversión de un altavoz inteligente en una “torre de control” para electrodomésticos al detectar los ruidos que hacen, o ayudar a las personas con discapacidad auditiva al enviar alertas sobre ruidos, como bocinas de automóviles, a dispositivos portátiles, incluidos los relojes inteligentes.

El panorama del reconocimiento de sonido

Han señala que durante los últimos tres años, ha habido un cambio de centrarse en la tecnología de reconocimiento de voz a otros sonidos también.

Por ejemplo, más empresas tecnológicas importantes, como Amazon, Google y Apple, están agregando reconocimiento de sonido contextual a sus productos. Por ejemplo, tanto Amazon Alexa Guard como Nest Secure detectan el sonido de un vidrio rompiéndose, mientras que el reconocimiento de sonido de iOS 14 le permitió agregar nuevas funciones de accesibilidad.

Han dijo que los lanzamientos de las principales empresas tecnológicas son una bendición para Cochlear.ai, porque significa que el mercado de la tecnología de reconocimiento de sonido está creciendo. La startup planea trabajar con muchas industrias diferentes, pero actualmente se enfoca en dispositivos de consumo inteligentes y automóviles porque es de donde proviene el mayor interés por su software. Por ejemplo, Cochlear.ai está trabajando actualmente en un proyecto con Daimler AG para incluir su reconocimiento de sonido en los automóviles (por ejemplo, alertas si un niño está encerrado dentro), además de colaboraciones con las principales empresas de electrónica, telecomunicaciones y bienes de consumo.

El software que puede identificar sonidos como disparos, cristales rotos y otros ruidos para la detección de emergencias ha existido durante décadas, pero la tecnología convencional a menudo generaba falsas alarmas o requería el uso de micrófonos específicos y otro hardware, dijo Han.

Otras empresas dedicadas a mejorar la tecnología de reconocimiento de sonido incluyen Cambridge, Audio Analytic de Inglaterra, que se centra en la inteligencia de sonido basada en el contexto, y Sound Intelligence, con sede en los Países Bajos, que desarrolla software para alertas de emergencia y sistemas de salud.

Cochlear.ai planea diferenciarse mediante la creación de un software que se puede usar con una amplia gama de micrófonos, incluso en teléfonos inteligentes de gama baja o micrófonos USB, sin necesidad de ajustes finos, sino que se basa en el aprendizaje profundo para refinar sus algoritmos y reducir los falsos. positivos

Durante las primeras etapas de creación de un conjunto de datos para un sonido específico, el equipo de Cochlear.ai graba muchas muestras de audio por sí mismos, utilizando modelos de teléfonos inteligentes más antiguos y micrófonos USB, para garantizar que su software funcione incluso sin micrófonos de alta calidad.

Otras muestras se recopilan de fuentes en línea. Una vez que el modelo de aprendizaje inicial del sonido alcanza un cierto nivel de precisión, puede buscar en línea por sí mismo más clips de audio del mismo tipo, lo que aumenta exponencialmente la velocidad del entrenamiento de datos. La Serie A de Cochlear.ai le permitirá crear conjuntos de datos de muestras de audio más rápidamente, lo que le permitirá agregar más sonidos a su software.

“Todos nuestros cofundadores son investigadores en este campo, por lo que las técnicas de procesamiento de señales y aprendizaje automático: estamos probando muchos algoritmos diferentes, porque cada sonido tiene características diferentes”, dijo Han. “Tenemos que probar muchas cosas diferentes para hacer un solo modelo que pueda identificar todos los sonidos diferentes”.

Editar: esta historia se ha actualizado con la ortografía correcta de Audio Analytic.


Source link