Un aspecto de las videollamadas que muchos de nosotros damos por sentado es la forma en que pueden cambiar entre fuentes para resaltar a quien sea que esté hablando. Genial, si hablar es cómo te comunicas. Desafortunadamente, el habla silenciosa como el lenguaje de señas no activa esos algoritmos, pero esta investigación de Google podría cambiar eso.
Es un motor de detección de lenguaje de señas en tiempo real que puede decir cuándo alguien está firmando (en lugar de simplemente moverse) y cuándo ha terminado. Por supuesto, es trivial para los humanos contar este tipo de cosas, pero es más difícil para un sistema de videollamadas que está acostumbrado a simplemente empujar píxeles.
Un nuevo artículo de los investigadores de Google, presentado (virtualmente, por supuesto) en ECCV, muestra cómo se puede hacer de manera eficiente y con muy poca latencia. Se anularía el punto si la detección del lenguaje de señas funcionara, pero resultara en un video retrasado o degradado, por lo que su objetivo era asegurarse de que el modelo fuera liviano y confiable.
El sistema primero ejecuta el video a través de un modelo llamado PoseNet, que estima las posiciones del cuerpo y las extremidades en cada fotograma. Esta información visual simplificada (esencialmente, una figura de palitos) se envía a un modelo entrenado en datos de poses de videos de personas que usan el lenguaje de señas alemán, y compara la imagen en vivo con lo que cree que es la seña.
Créditos de imagen: Google
Este proceso simple ya produce una precisión del 80 por ciento al predecir si una persona está firmando o no, y con algunas optimizaciones adicionales obtiene una precisión del 91,5 por ciento. Teniendo en cuenta que la detección del “hablante activo” en la mayoría de las llamadas es solo regular para saber si una persona está hablando o tosiendo, esos números son bastante respetables.
Para trabajar sin agregar una nueva señal de “una persona está firmando” a las llamadas existentes, el sistema hace un pequeño truco inteligente. Utiliza una fuente de audio virtual para generar un tono de 20 kHz, que está fuera del rango del oído humano, pero que los sistemas de audio de las computadoras notan. Esta señal se genera cada vez que la persona está firmando, lo que hace que los algoritmos de detección de voz piensen que está hablando en voz alta.
En este momento es solo una demostración, que puede probar aquí, pero no parece haber ninguna razón por la que no pueda integrarse directamente en los sistemas de videollamadas existentes o incluso como una aplicación que los aprovecha. Puedes leer el documento completo aquí.
Source link