Los investigadores de Apple y CMU demuestran un sistema de aprendizaje por escucha de baja fricción para dispositivos domésticos más inteligentes

Los investigadores de Apple y CMU demuestran un sistema de aprendizaje por escucha de baja fricción para dispositivos domésticos más inteligentes

Un equipo de investigadores de Apple. y El Instituto de Interacción Humano-Computadora de la Universidad Carnegie Mellon ha presentado un sistema para que las IA integradas aprendan escuchando ruidos en su entorno sin la necesidad de datos de capacitación iniciales o sin colocar una gran carga sobre el usuario para supervisar el proceso de aprendizaje. El objetivo general es que los dispositivos inteligentes desarrollen más fácilmente la conciencia contextual / situacional para aumentar su utilidad.

El sistema, que han llamado Listen Learner, se basa en el reconocimiento de la actividad acústica para habilitar un dispositivo inteligente, como un altavoz equipado con micrófono, para interpretar los eventos que tienen lugar en su entorno a través de un proceso de aprendizaje auto supervisado con etiquetado manual realizado por interacciones de usuario de una sola vez, como cuando el hablante le pregunta a una persona “¿qué fue ese sonido?”, después de escuchar el ruido el tiempo suficiente para clasificar en un clúster.

También se puede incluir un modelo general previamente entrenado para permitir que el sistema haga una suposición inicial sobre lo que podría significar un grupo acústico. Por lo tanto, la interacción del usuario podría ser menos abierta, con el sistema capaz de plantear una pregunta como “¿fue un grifo?”, Que requiere solo una respuesta de sí / no del humano en la sala.

Las preguntas de refinamiento también podrían implementarse para ayudar al sistema a descubrir lo que los investigadores denominan “casos extremos”, es decir, donde los sonidos se han agrupado estrechamente y aún podrían significar un evento distinto, digamos que se cierra una puerta frente a un armario cerrado. Con el tiempo, el sistema podría hacer una / o adivinar educada y luego presentarla al usuario para confirmar.

Han reunido el siguiente video que muestra el concepto en un entorno de cocina.

En su trabajo de presentación de la investigación, señalan que si bien los dispositivos inteligentes son cada vez más frecuentes en hogares y oficinas, tienden a carecer de “capacidades de detección contextual”, con solo “una comprensión mínima de lo que sucede a su alrededor”, lo que a su vez limita “sus potencial para permitir experiencias computacionales verdaderamente asistivas ”.

Y aunque el reconocimiento de la actividad acústica no es nuevo en sí mismo, los investigadores querían ver si podían mejorar las implementaciones existentes que requieren una gran capacitación manual del usuario para obtener una alta precisión; o usar Los clasificadores generales previamente entrenados para trabajar “fuera de la caja” pero, dado que carecen de datos para el entorno específico de un usuario, son propensos a una baja precisión.

Listen Learner está pensado como un punto medio para aumentar la utilidad (precisión) sin colocar una gran carga en el ser humano para estructurar los datos. El sistema de extremo a extremo genera automáticamente clasificadores de eventos acústicos a lo largo del tiempo, con el equipo construyendo un dispositivo prototipo de prueba de concepto para actuar como un altavoz inteligente y canalizar para solicitar aportes humanos.

“TEl algoritmo aprende un modelo de conjunto agrupando iterativamente muestras desconocidas y luego entrenando clasificadores en las asignaciones de clúster resultantes “, explican en el documento. “Esto permite una interacción de” una sola vez “con el usuario para etiquetar partes del modelo de conjunto cuando se activan”.

Los eventos de audio están segmentados usando un umbral adaptativo que se dispara cuando el nivel de entrada del micrófono es 1.5 desviaciones estándar más altas que la media del último minuto.

“Empleamos técnicas de histéresis (es decir, para eliminar el rebote) para suavizar aún más nuestro esquema de umbral”, agregan, y señalan que: “Si bien muchos entornos tienen sonidos de fondo persistentes y característicos (por ejemplo, HVAC), los ignoramos (junto con el silencio) para la eficiencia computacional. Tenga en cuenta que las muestras entrantes se descartaron si eran demasiado similares al ruido ambiental, pero no se elimina el silencio dentro de una ventana segmentada “.

El modelo de audio CNN (red neuronal convolucional) que están utilizando se formó inicialmente en el conjunto de datos YouTube-8M, aumentado con una biblioteca de efectos de sonido profesionales, según el periódico.

“La elección de utilizar incrustaciones de redes neuronales profundas, que pueden verse como representaciones aprendidas de baja dimensión de datos de entrada, es consistente con la suposición múltiple (es decir, que los datos de alta dimensión se encuentran aproximadamente en una variedad de baja dimensión). Al realizar la agrupación y clasificación en esta representación aprendida de baja dimensión, nuestro sistema puede descubrir y reconocer más fácilmente nuevas clases de sonido “, agregan.

El equipo utilizó métodos de agrupamiento no supervisados ​​para inferir la ubicación de los límites de clase a partir de las representaciones aprendidas de baja dimensión, utilizando un algoritmo jerárquico de agrupamiento aglomerativo (HAC) conocido como Ward’s método.

Su sistema evalúa “todos los grupos de datos posibles para encontrar la mejor representación de clases”, dado los grupos de candidatos pueden superponerse entre sí.

“Si bien nuestro algoritmo de agrupación separa los datos en agrupaciones al minimizar la variación total dentro de la agrupación, también buscamos evaluar las agrupaciones en función de su clasificabilidad. Después de la etapa de agrupamiento, utilizamos un algoritmo de máquina de vectores de soporte (SVM) de una clase sin supervisión que aprende los límites de decisión para la detección de novedades. Para cada grupo de candidatos, un SVM de una clase se entrena en los puntos de datos de un grupo, y su puntaje F1 se calcula con todas las muestras en el grupo de datos “, agregan.

“Los algoritmos de agrupación tradicionales buscan describir datos de entrada al proporcionar una asignación de agrupación, pero esto por sí solo no puede usarse para discriminar muestras no vistas. Por lo tanto, para facilitar la capacidad de inferencia de nuestro sistema, construimos un modelo de conjunto utilizando los SVM de una clase generados en el paso anterior. Adoptamos un procedimiento iterativo para construir nuestro modelo de conjunto seleccionando el primer clasificador con un puntaje F1 que excede el umbral, ? & ‘(y agregándolo al conjunto. Cuando se agrega un clasificador, lo ejecutamos en el conjunto de datos y marcamos muestras que son reconocidos. Luego reiniciamos el bucle de clasificación de clúster hasta que 1) todas las muestras en el grupo estén marcadas o 2) un bucle no produzca más clasificadores ”.

Preservación de la privacidad?

El documento toca las preocupaciones de privacidad que surgen de un sistema de escucha de este tipo, dada la frecuencia con la que se encendía el micrófono y se procesaba la información ambiental, y debido a que señalan que no siempre es posible realizar todo el procesamiento local en el dispositivo.

“Si bien nuestro enfoque acústico para el reconocimiento de actividades ofrece beneficios tales como una precisión de clasificación mejorada y capacidades de aprendizaje incrementales, la captura y transmisión de datos de audio, especialmente contenido hablado, deberían plantear problemas de privacidad”, escriben. “En una implementación ideal, todos los datos se retendrían en el dispositivo de detección (aunque se requeriría un cálculo significativo para la capacitación local). Alternativamente, el cálculo podría ocurrir en la nube con etiquetas anonimizadas por el usuario de las clases de modelos almacenadas localmente “.

Puedes leer el artículo completo aquí.


Source link