La traducción del lenguaje de señas en tiempo real de SLAIT promete una comunicación en línea más accesible

La traducción del lenguaje de señas en tiempo real de SLAIT promete una comunicación en línea más accesible

El lenguaje de señas es utilizado por millones de personas en todo el mundo, pero a diferencia del español, el mandarín o incluso el latín, no hay una traducción automática disponible para quienes no pueden usarlo. SLAIT afirma ser la primera herramienta de este tipo disponible para uso general, que puede traducir alrededor de 200 palabras y oraciones simples para comenzar, usando nada más que una computadora común y una cámara web.

Las personas con deficiencias auditivas u otras afecciones que dificultan el habla vocal, cientos de millones, dependen de las mismas herramientas tecnológicas comunes que la población auditiva. Pero si bien los correos electrónicos y el chat de texto son útiles y, por supuesto, muy comunes ahora, no reemplazan la comunicación cara a cara y, desafortunadamente, no hay una manera fácil de convertir la firma en palabras escritas o habladas, por lo que esto sigue siendo un barrera significativa.

Hemos visto intentos de traducción automática del lenguaje de señas (generalmente americano / ASL) durante años y años. En 2012, Microsoft otorgó su Imagine Cup a un equipo de estudiantes que rastreaba los movimientos de las manos con guantes; en 2018 escribí sobre SignAll, que ha estado trabajando en una cabina de traducción de lenguaje de señas usando múltiples cámaras para dar posicionamiento 3D; y en 2019 noté que un nuevo algoritmo de seguimiento de manos llamado MediaPipe, de los laboratorios de inteligencia artificial de Google, podría conducir a avances en la detección de señales. Resulta que eso es más o menos exactamente lo que sucedió.

SLAIT es una startup construida a partir de una investigación realizada en la Universidad de Ciencias Aplicadas de Aquisgrán en Alemania, donde el cofundador Antonio Domènech construyó un pequeño motor de reconocimiento de ASL utilizando MediaPipe y redes neuronales personalizadas. Habiendo probado la noción básica, Domènech se unió a los cofundadores Evgeny Fomin y William Vicars para iniciar la empresa; Luego pasaron a construir un sistema que pudiera reconocer primero 100, y ahora 200 gestos individuales de ASL y algunas oraciones simples. La traducción se realiza sin conexión y casi en tiempo real en cualquier teléfono o computadora relativamente reciente.

Créditos de imagen: SLAIT

Planean ponerlo a disposición para el trabajo educativo y de desarrollo, expandiendo su conjunto de datos para que puedan mejorar el modelo antes de intentar aplicaciones de consumo más importantes.

Por supuesto, el desarrollo del modelo actual no fue nada sencillo, aunque se logró en muy poco tiempo por un pequeño equipo. MediaPipe ofreció un método efectivo y de código abierto para rastrear las posiciones de las manos y los dedos, claro, pero el componente crucial para cualquier modelo sólido de aprendizaje automático son los datos, en este caso los datos de video (ya que sería interpretar video) de ASL en uso, y simplemente no hay mucho de eso disponible.

Como explicaron recientemente en una presentación para la conferencia DeafIT, el primer equipo evaluó utilizando una base de datos de Microsoft más antigua, pero descubrió que una base de datos académica australiana más nueva tenía más y mejor calidad de datos, lo que permitió la creación de un modelo con una precisión del 92% para identificar cualquiera de los 200 signos en tiempo real. Han aumentado esto con videos de lenguaje de señas de las redes sociales (con permiso, por supuesto) y discursos del gobierno que tienen intérpretes de lenguaje de señas, pero aún necesitan más.

Un GIF que muestra uno de los prototipos en acción: el producto de consumo no tendrá estructura alámbrica, obviamente. Créditos de imagen: SLAIT

Su intención es hacer que la plataforma esté disponible para las comunidades de estudiantes sordos y de ASL, a quienes, con suerte, no les importará que el uso del sistema se oriente hacia su mejora.

Y, naturalmente, podría resultar una herramienta invaluable en su estado actual, ya que el modelo de traducción de la empresa, incluso como un trabajo en progreso, todavía es potencialmente transformador para muchas personas. Con la cantidad de videollamadas que se están realizando en estos días y probablemente por el resto de la eternidad, la accesibilidad se está quedando atrás: solo algunas plataformas ofrecen subtítulos, transcripción, resúmenes automáticos y, ciertamente, ninguna reconoce el lenguaje de señas. Pero con la herramienta de SLAIT, la gente podría firmar normalmente y participar en una videollamada de forma natural en lugar de utilizar la función de chat descuidada.

“A corto plazo, hemos demostrado que los modelos de 200 palabras son accesibles y nuestros resultados mejoran cada día”, dijo Evgeny Fomin de SLAIT. “A mediano plazo, planeamos lanzar una aplicación orientada al consumidor para rastrear el lenguaje de señas. Sin embargo, queda mucho trabajo por hacer para llegar a una biblioteca completa de todos los gestos del lenguaje de señas. Estamos comprometidos a hacer realidad este estado futuro. Nuestra misión es mejorar radicalmente la accesibilidad para las comunidades sordas y con problemas de audición ”.

De izquierda a derecha, Evgeny Fomin, Antonio Domènech y Bill Vicars. Créditos de imagen: SLAIT

Advirtió que no estará totalmente completo, así como la traducción y transcripción en o hacia cualquier idioma es solo una aproximación, el punto es brindar resultados prácticos para millones de personas, y unos pocos cientos de palabras son muy importantes para lograrlo. A medida que fluyen los datos, se pueden agregar nuevas palabras al vocabulario, y también nuevas frases de múltiples digestiones, y el rendimiento de la serie básica mejorará.

En este momento, la empresa está buscando financiación inicial para sacar su prototipo y hacer crecer el equipo más allá del equipo fundador. Fomin dijo que han recibido cierto interés, pero que quieren asegurarse de que se conecten con un inversor que realmente comprenda el plan y la visión.

Cuando el motor en sí se haya construido para que sea más confiable mediante la adición de más datos y el refinamiento de los modelos de aprendizaje automático, el equipo buscará un mayor desarrollo e integración de la aplicación con otros productos y servicios. Por ahora, el producto es más una prueba de concepto, pero qué prueba es: con un poco más de trabajo, SLAIT habrá superado la industria y brindado algo que las personas sordas y oyentes han estado esperando durante décadas.


Source link