La startup surcoreana Cochlear.ai recauda $ 2 millones Serie A para detectar los sonidos perdidos por el reconocimiento de voz

Siéntese en silencio por un momento y preste atención a los diferentes sonidos que le rodean. Es posible que escuche los pitidos de los electrodomésticos, los bocinazos de los autos, el ladrido de un perro, alguien estornudando. Todos estos son ruidos Cochlear.ai, una startup de reconocimiento de sonido con sede en Seúl, está entrenando a su plataforma SaaS para identificar. El objetivo de la compañía es desarrollar software que pueda identificar casi cualquier tipo de sonido y ser utilizado en una amplia gama de hardware inteligente, incluidos teléfonos, parlantes y automóviles, dijo a TechCrunch el cofundador y director ejecutivo Yoonchang Han.

Cochlear.ai anunció que ha recaudado $ 2 millones en fondos de la Serie A, liderados por Smilegate Investment, con la participación de Shinhan Capital y NAU IB Capital. Esto eleva su financiación total hasta ahora a $ 2,7 millones, incluida una ronda inicial de Kakao Ventures, el brazo de inversión del gigante de Internet de Corea del Sur. Cochlear.ai utilizará su Serie A en la contratación durante los próximos 18 meses y para aumentar el conjunto de datos de sonidos utilizados para entrenar sus algoritmos de aprendizaje profundo.

La compañía fue fundada en 2017 por un equipo de seis científicos de investigación de música y audio, incluido Han, quien completó su doctorado en recuperación de información musical en la Universidad Nacional de Seúl. Mientras trabajaba en su doctorado, Han descubrió que “todo el mundo estaba realmente centrado en los sistemas de reconocimiento de voz. Hay tantas empresas para eso, pero analizar otros tipos de sonidos es técnicamente bastante diferente al reconocimiento de voz “.

La tecnología de reconocimiento de voz generalmente reconoce una o dos voces a la vez y asume que las personas están participando en una conversación, en lugar de hablar entre sí. También utiliza el conocimiento lingüístico en el posprocesamiento para aumentar la precisión. Pero con la música o los ruidos ambientales, generalmente se superponen diferentes tipos de sonidos.

“Tenemos que cuidar todos los diferentes rangos de frecuencia, y no solo hay voces, sino miles de sonidos”, dijo Han. “Así que creemos que esta será la próxima generación de reconocimiento de sonido, y esa fue la motivación para nuestra puesta en marcha”.

El SaaS de Cochlear.ai, llamado Cochl.Sense, está disponible como una API en la nube y un SDK de borde, y actualmente puede detectar alrededor de 40 sonidos diferentes, que se agrupan en tres categorías: detección de emergencia (que incluye rotura de cristales, gritos y sirenas), interacción humana (que incluye el uso de chasquidos, aplausos o silbidos para interactuar con el hardware) y el estado humano (para identificar sonidos como toser, estornudar o roncar para casos de uso como la monitorización de pacientes o subtítulos de audio automáticos).

Han dijo que la compañía también planea agregar una nueva funcionalidad a Cochl.Sense para su uso en hogares (incluidos altavoces inteligentes), vehículos y análisis de música. La flexibilidad de Cochl.sense significa que potencialmente puede adaptarse a muchos casos de uso, incluido convertir un altavoz inteligente en una “torre de control” para electrodomésticos al detectar los ruidos que hacen, o ayudar a las personas con discapacidad auditiva al enviar alertas sobre ruidos, como bocinas de automóviles, para dispositivos portátiles, incluidos relojes inteligentes.

El panorama del reconocimiento de sonido

Han señala que en los últimos tres años más o menos, ha habido un cambio de centrarse en la tecnología de reconocimiento de voz a otros sonidos también.

Por ejemplo, más empresas tecnológicas importantes, como Amazon, Google y Apple, están agregando reconocimiento de sonido sensible al contexto a sus productos. Por ejemplo, tanto Amazon Alexa Guard como Nest Secure detectan el sonido de cristales rotos, mientras que el reconocimiento de sonido de iOS 14 le permitió agregar nuevas funciones de accesibilidad.

Han dijo que los lanzamientos de las principales empresas de tecnología son una bendición para Cochlear.ai, porque significa que el mercado de la tecnología de reconocimiento de sonido está creciendo. La startup planea trabajar con muchas industrias diferentes, pero actualmente se enfoca en dispositivos de consumo inteligente y automotriz porque de ahí proviene el mayor interés por su software. Por ejemplo, Cochlear.ai está trabajando actualmente en un proyecto con Daimler AG para incluir su reconocimiento de sonido en los automóviles (por ejemplo, alertas si un niño está encerrado en el interior), además de colaboraciones con las principales empresas de electrónica, telecomunicaciones y bienes de consumo.

El software que puede identificar sonidos como disparos, roturas de cristales y otros ruidos para la detección de emergencias ha existido durante décadas, pero la tecnología convencional a menudo generaba falsas alarmas o requería el uso de micrófonos específicos y otro hardware, dijo Han.

Otras empresas dedicadas a mejorar la tecnología de reconocimiento de sonido incluyen Cambridge, Audio Analytica de Inglaterra, que se centra en la inteligencia de sonido basada en el contexto, y Sound Intelligence, con sede en los Países Bajos, que desarrolla software para alertas de emergencia y sistemas de atención médica.

Cochlear.ai planea diferenciarse mediante la creación de software que se pueda usar con una amplia gama de micrófonos, incluso en teléfonos inteligentes de gama baja o micrófonos USB, sin necesidad de un ajuste fino, confiando en cambio en el aprendizaje profundo para refinar sus algoritmos y reducir los falsos positivos.

Durante las primeras etapas de la creación de un conjunto de datos para un sonido específico, el equipo de Cochlear.ai graba muchas muestras de audio por sí mismos utilizando modelos de teléfonos inteligentes más antiguos y micrófonos USB, para garantizar que su software funcione incluso sin micrófonos de alta calidad.

Otras muestras se obtienen de fuentes en línea. Una vez que el modelo de aprendizaje inicial del sonido alcanza un cierto nivel de precisión, puede buscar en línea por sí mismo más del mismo tipo de clips de audio, aumentando exponencialmente la velocidad del entrenamiento de datos. La Serie A de Cochlear.ai le permitirá crear conjuntos de datos de muestras de audio más rápidamente, lo que le permitirá agregar más sonidos a su software.

“Todos nuestros cofundadores son investigadores en este campo, por lo que el procesamiento de señales y las técnicas de aprendizaje automático, estamos probando muchos algoritmos diferentes, porque cada sonido tiene características diferentes”, dijo Han. “Tenemos que probar muchas cosas diferentes para hacer un solo modelo que pueda identificar todos los sonidos diferentes”.

Source link