- En la Conferencia Europea sobre Visión por Computadora del año pasado, Google presentó un nuevo trabajo de investigación que describe un modelo de detección de lenguaje de signos para videoconferencias.
- Las videollamadas se basan en algoritmos que pueden detectar automáticamente quién está hablando. Sin embargo, no pueden detectar a las personas que están firmando, lo que les dificulta obtener la palabra.
- La solución de Google implica un tono de 20 kilohercios que se puede reproducir mientras una persona firma, engañando a los algoritmos para que piensen que la persona está hablando en voz alta.
Zoom, Microsoft Teams y Google Meet son herramientas esenciales para trabajar desde casa, pero para las personas con discapacidades auditivas, estas aplicaciones pueden ser difíciles de navegar e incluso inaccesibles.
Durante una videollamada, por ejemplo, el software es lo suficientemente inteligente como para resaltar a la persona que está hablando activamente. En un diseño de cuadrícula, eso podría significar que un cuadrado amarillo rodea la miniatura del orador, o en un diseño de pantalla completa, puede parecer que la cara del orador se hace cargo. Pero cuando una persona firma, el software no le otorga ningún reconocimiento especial, lo que dificulta que tenga la palabra.
BUCEAR MÁS PROFUNDO ➡ Lea las mejores funciones científicas y tecnológicas de su clase y obtenga acceso ilimitado a Pop Mech, comenzando ahora.
Para cerrar esa brecha, los investigadores de Google AI han presentado un modelo de detección de lenguaje de señas en tiempo real que puede identificar a las personas que están haciendo señas, en lugar de levantar el brazo para cepillarse un cabello de la cara o cubrirse la boca mientras tose, con hasta un 91 por ciento de precisión. Los científicos presentaron su trabajo en el Taller virtual de Reconocimiento, Traducción y Producción de Lengua de Signos el año pasado.
¿El problema? Los programadores no pueden hacer que el proceso sea tan intensivo desde el punto de vista computacional que la llamada esté sobrecargada de datos.
Este contenido se importa de {embed-name}. Es posible que pueda encontrar el mismo contenido en otro formato, o puede encontrar más información, en su sitio web.
En una publicación de blog, Amit Moryossef, un pasante de Google Research, escribe que para crear una solución en tiempo real, el diseño debía ser una opción liviana, plug-and-play que pudieran usar varios proveedores de videoconferencias.
“Los intentos anteriores de integrar modelos para aplicaciones de videoconferencia en el lado del cliente demostraron la importancia de un modelo liviano que consume menos ciclos de CPU para minimizar el efecto sobre la calidad de la llamada”, escribe Moryossef. “Para reducir la dimensionalidad de entrada, aislamos la información que el modelo necesita del video para realizar la clasificación de cada cuadro”.
A diferencia de otras tareas informáticas del lenguaje de señas que implican reconocer cual los signos que se utilizan, y conectarlos con los significados que los acompañan, este esfuerzo implica el tiempo, o la cuando. Con un modelo de estimación de pose, acertadamente llamado PoseNet, los investigadores crearon una línea de base de cómo se vería el lenguaje corporal de la mayoría de los usuarios para ayudar al modelo a predecir que cuando.
PoseNet destila el metraje HD en cada fotograma hasta un conjunto de puntos de referencia, incluidos los ojos, la nariz, los hombros y las manos de una persona. A partir de ahí, los científicos utilizaron esos puntos de referencia para crear otro modelo que compara la pose de la persona con videos de personas que firman en el corpus del lenguaje de señas alemán, una base de datos de videos con anotaciones que describen qué fotogramas tienen firma activa.
✨ Nuestros libros favoritos de IA
Eso resultó en una tasa de detección con aproximadamente un 80 por ciento de precisión. Con un poco más de hechicería, el equipo de Google elevó esa precisión a un 91,5 por ciento de precisión. Es posible que esas cifras no suenen sorprendentes, pero cuando se considera la precisión de los modelos de detección de voz existentes en las videoconferencias (¿cuántas veces ha visto aparecer su rostro en una llamada después de toser?), Resulta mucho más convincente.
A partir de ahí, los investigadores crearon una demostración web que se puede conectar a varias aplicaciones de videoconferencia de terceros, lo que permite que esos sistemas configuren a los usuarios como oradores activos cuando firman.
Cuando el modelo de detección de lenguaje de señas confía en que el usuario está firmando, reproduce un tono de audio ultrasónico silencioso de 20 kilohertz que el software de videoconferencia puede detectar como sonido, mientras que los humanos en ambos extremos de la llamada no perciben nada. En resumen, esto engaña a Zoom, Google Meet y otro software para que piensen que la persona que firma habla de manera audible.
No está claro si Google tiene la intención de construir directamente este modelo de detección de lenguaje de señas en su herramienta de videoconferencia Meet, o si seguirá siendo una aplicación web de código abierto para que todos la usen. De cualquier manera, puede consultar la herramienta aquí y examinar el código fuente en GitHub.
🎥 Ahora mira esto:
Este contenido es creado y mantenido por un tercero y se importa a esta página para ayudar a los usuarios a proporcionar sus direcciones de correo electrónico. Es posible que pueda encontrar más información sobre este y contenido similar en piano.io
Source link