Los iPhones ahora pueden reconocer y etiquetar botones y funciones de interfaz de usuario automáticamente para usuarios ciegos

Neto

hace 5 años

Los iPhones ahora pueden reconocer y etiquetar botones y funciones de interfaz de usuario automáticamente para usuarios ciegos

manzana siempre se ha esforzado por crear funciones para usuarios con discapacidades, y Voiceover en iOS es una herramienta invaluable para cualquier persona con discapacidad visual, asumiendo que todos los elementos de la interfaz se han etiquetado manualmente. Pero la compañía acaba de presentar una nueva función que utiliza el aprendizaje automático para identificar y etiquetar cada botón, control deslizante y pestaña automáticamente.

El reconocimiento de pantalla, disponible ahora en iOS 14, es un sistema de visión por computadora que ha sido entrenado en miles de imágenes de aplicaciones en uso, aprendiendo cómo se ve un botón, qué significan los íconos, etc. Estos sistemas son muy flexibles: dependiendo de los datos que les proporcione, pueden convertirse en expertos en detectar gatos, expresiones faciales o, como en este caso, las diferentes partes de una interfaz de usuario.

El resultado es que en cualquier aplicación ahora, los usuarios pueden invocar la función y una fracción de segundo después se etiquetarán todos los elementos de la pantalla. Y por “todos”, quieren decir cada – después de todo, los lectores de pantalla deben ser conscientes de todo lo que un usuario vidente vería y con lo que podría interactuar, desde imágenes (de las que iOS ha podido crear resúmenes de una oración durante algún tiempo) hasta íconos comunes (inicio , atrás) y de contexto específico como los menús “…” que aparecen en casi todas partes.

La idea no es hacer que el etiquetado manual sea obsoleto: los desarrolladores saben mejor cómo etiquetar sus propias aplicaciones, pero las actualizaciones, los estándares cambiantes y las situaciones desafiantes (interfaces en el juego, por ejemplo) pueden hacer que las cosas no sean tan accesibles como deberían. .

Charlé con Chris Fleizach del equipo de ingeniería de accesibilidad de iOS de Apple, y Jeff Bigham del equipo de accesibilidad de AI / ML, sobre el origen de esta nueva característica extremadamente útil. (Se describe en un documento que se presentará el próximo año).

“Buscamos áreas en las que podamos hacer avances en accesibilidad, como descripciones de imágenes”, dijo Fleizach. “En iOS 13 etiquetamos los íconos automáticamente. El reconocimiento de pantalla da un paso más. Podemos mirar los píxeles en la pantalla e identificar la jerarquía de objetos con los que puede interactuar, y todo esto sucede en el dispositivo en décimas de segundo “.

La idea no es nueva, exactamente; Bigham mencionó un lector de pantalla, Outspoken, que hace años intentó usar datos a nivel de píxel para identificar elementos de la interfaz de usuario. Pero si bien ese sistema necesitaba coincidencias precisas, la lógica difusa de los sistemas de aprendizaje automático y la velocidad de los aceleradores de inteligencia artificial integrados en los iPhones significan que el reconocimiento de pantalla es mucho más flexible y poderoso.

Posiblemente no hubiera sido hace solo un par de años: el estado del aprendizaje automático y la falta de una unidad dedicada para ejecutarlo significaba que algo como esto habría sido extremadamente agotador para el sistema, demorando mucho más y probablemente agotando la batería. Todo el rato.

Pero una vez que este tipo de sistema pareció posible, el equipo se puso a trabajar en la creación de un prototipo con la ayuda de su personal dedicado a la accesibilidad y la comunidad de pruebas.

“VoiceOver ha sido el abanderado de la accesibilidad visual durante mucho tiempo. Si observa los pasos en el desarrollo del reconocimiento de pantalla, se basó en la colaboración entre equipos: accesibilidad completa, nuestros socios en la recopilación y anotación de datos, IA / ML y, por supuesto, diseño. Hicimos esto para asegurarnos de que nuestro desarrollo de aprendizaje automático continuara avanzando hacia una excelente experiencia de usuario ”, dijo Bigham.

Se hizo tomando miles de capturas de pantalla de aplicaciones y juegos populares, y luego etiquetándolos manualmente como uno de varios elementos estándar de la interfaz de usuario. Estos datos etiquetados se enviaron al sistema de aprendizaje automático, que pronto se volvió competente para seleccionar esos mismos elementos por sí solo.

No es tan simple como parece: como seres humanos, nos hemos vuelto bastante buenos para comprender la intención de un gráfico en particular o un fragmento de texto, y muy a menudo podemos navegar incluso en interfaces abstractas o diseñadas de manera creativa. No es tan claro para un modelo de aprendizaje automático, y el equipo tuvo que trabajar con él para crear un conjunto complejo de reglas y jerarquías que garanticen que la interpretación del lector de pantalla resultante tenga sentido.

La nueva capacidad debería ayudar a que millones de aplicaciones sean más accesibles, o simplemente accesibles, para los usuarios con discapacidad visual. Puede activarlo yendo a la configuración de accesibilidad, luego a VoiceOver, luego al reconocimiento de VoiceOver, donde puede activar y desactivar el reconocimiento de imagen, pantalla y texto.

No sería trivial llevar el reconocimiento de pantalla a otras plataformas, como Mac, así que no te hagas ilusiones por eso todavía. Pero el principio es sólido, aunque el modelo en sí no se puede generalizar a las aplicaciones de escritorio, que son muy diferentes de las móviles. Quizás otros asuman esa tarea; la perspectiva de las funciones de accesibilidad impulsadas por la inteligencia artificial apenas comienza a hacerse realidad.

Source link