Los investigadores médicos de Google se sienten humildes cuando la herramienta de detección de IA se queda corta en las pruebas de la vida real

Los investigadores médicos de Google se sienten humildes cuando la herramienta de detección de IA se queda corta en las pruebas de la vida real

La IA se cita con frecuencia como un hacedor de milagros en la medicina, especialmente en los procesos de detección, donde los modelos de aprendizaje automático cuentan con habilidades de nivel experto para detectar problemas. Pero como muchas tecnologías, una cosa es tener éxito en el laboratorio y otra muy distinta hacerlo en la vida real, como aprendieron los investigadores de Google en una prueba humillante en clínicas en la zona rural de Tailandia.

Google Health creó un sistema de aprendizaje profundo que analiza imágenes del ojo y busca evidencia de retinopatía diabética, una de las principales causas de pérdida de visión en todo el mundo. Pero a pesar de la alta precisión teórica, la herramienta resultó poco práctica en las pruebas del mundo realfrustrando tanto a los pacientes como a las enfermeras con resultados inconsistentes y una falta general de armonía con las prácticas sobre el terreno.

Debe decirse desde el principio que, aunque las lecciones aprendidas aquí fueron difíciles, es un paso necesario y responsable realizar este tipo de pruebas, y es encomiable que Google publique estos resultados menos que halagadores públicamente. También queda claro a partir de su documentación que el equipo ya se ha tomado en serio los resultados (aunque la publicación del blog presenta una interpretación bastante soleada de los hechos).

el trabajo de investigacion documenta el despliegue de una herramienta destinada a aumentar el proceso existente mediante el cual los pacientes en varias clínicas en Tailandia son examinados para detectar retinopatía diabética o RD. Esencialmente, las enfermeras toman a los pacientes diabéticos uno a la vez, toman imágenes de sus ojos (una “foto de fondo de ojo”) y las envían en lotes a los oftalmólogos, quienes las evalúan y entregan los resultados…. generalmente al menos 4-5 semanas más tarde debido a la alta demanda.

El sistema de Google estaba destinado a proporcionar experiencia similar a la de un oftalmólogo en segundos. En pruebas internas identificó grados de DR con un 90% de precisión; las enfermeras podían entonces hacer una recomendación preliminar para derivación o pruebas adicionales en un minuto en lugar de un mes (las decisiones automáticas fueron comprobadas por un oftalmólogo en una semana). Suena genial, en teoría.

Idealmente, el sistema devolvería rápidamente un resultado como este, que podría compartirse con el paciente.

Pero esa teoría se vino abajo tan pronto como los autores del estudio tocaron tierra. Así lo describe el estudio:

Observamos un alto grado de variación en el proceso de revisión ocular en las 11 clínicas de nuestro estudio. Los procesos de captura y clasificación de imágenes fueron uniformes en todas las clínicas, pero las enfermeras tenían un alto grado de autonomía sobre cómo organizar el flujo de trabajo de detección y había diferentes recursos disponibles en cada clínica.

El entorno y los lugares donde se realizaron los exámenes de la vista también variaron mucho entre las clínicas. Solo dos clínicas tenían una sala de detección dedicada que podía oscurecerse para garantizar que las pupilas de los pacientes fueran lo suficientemente grandes como para tomar una foto de fondo de ojo de alta calidad.

La variedad de condiciones y procesos resultó en que las imágenes que se enviaban al servidor no cumplían con los altos estándares del algoritmo:

El sistema de aprendizaje profundo tiene pautas estrictas con respecto a las imágenes que evaluará… Si una imagen tiene un poco de desenfoque o un área oscura, por ejemplo, el sistema la rechazará, incluso si pudiera hacer una predicción sólida. Los altos estándares de calidad de imagen del sistema no concuerdan con la consistencia y la calidad de las imágenes que las enfermeras capturaban de forma rutinaria bajo las limitaciones de la clínica, y esta falta de coincidencia generaba frustración y trabajo adicional.

El sistema rechazaría las imágenes con DR obvio pero de baja calidad, lo que complicaría y extendería el proceso. Y fue entonces cuando pudieron subirlos al sistema en primer lugar:

Con una buena conexión a Internet, estos resultados aparecen en unos pocos segundos. Sin embargo, las clínicas de nuestro estudio a menudo experimentaron conexiones más lentas y menos confiables. Esto hace que algunas imágenes tarden entre 60 y 90 segundos en cargarse, lo que ralentiza la cola de detección y limita la cantidad de pacientes que se pueden evaluar en un día. En una clínica, se cortó Internet durante un período de dos horas durante el examen de la vista, lo que redujo la cantidad de pacientes evaluados de 200 a solo 100.

Podría decirse que “primero, no hacer daño” está en juego aquí: Menos personas en este caso recibieron tratamiento debido a un intento de aprovechar esta tecnología. Las enfermeras intentaron varias soluciones, pero la inconsistencia y otros factores llevaron a algunos a aconsejar a los pacientes que no participaran en el estudio.

Incluso el mejor de los casos tenía consecuencias imprevistas. Los pacientes no estaban preparados para una evaluación instantánea y programar una cita de seguimiento inmediatamente después de enviar la imagen:

Como resultado del diseño del protocolo del estudio prospectivo, y de la posible necesidad de hacer planes sobre el terreno para visitar el hospital de referencia, observamos que las enfermeras de las clínicas 4 y 5 disuadían a los pacientes de participar en el estudio prospectivo, por temor a que pudiera causar dificultad innecesaria.

Como dijo una de esas enfermeras:

“[Patients] no me preocupa la precisión, sino cómo será la experiencia: ¿me hará perder el tiempo si tengo que ir al hospital? Les aseguro que no tienen que ir al hospital. Preguntan, ‘¿toma más tiempo?’, ‘¿Me voy a otro lado?’ Algunas personas no están listas para hacerlo, así que no se unirán a la investigación. 40-50% no se unen porque creen que tienen que ir al hospital”.

No todo son malas noticias, por supuesto. El problema no es que AI no tenga nada que ofrecer en una clínica tailandesa abarrotada, sino que la solución debe adaptarse al problema y al lugar. Tanto los pacientes como las enfermeras disfrutaron de la evaluación automática instantánea y fácil de entender cuando funcionó bien, lo que a veces ayudó a demostrar que se trataba de un problema grave que debía abordarse pronto. Y, por supuesto, el beneficio principal de reducir la dependencia de un recurso severamente limitado (oftalmólogos locales) es potencialmente transformador.

Pero los autores del estudio parecían tener los ojos claros en su evaluación de esta aplicación prematura y parcial de su sistema de IA. Como ellos dicen:

Al introducir nuevas tecnologías, los planificadores, los formuladores de políticas y los diseñadores de tecnología no tuvieron en cuenta la naturaleza dinámica y emergente de los problemas que surgen en los complejos programas de atención médica. Los autores argumentan que prestar atención a las personas (sus motivaciones, valores, identidades profesionales y las normas y rutinas actuales que dan forma a su trabajo) es vital al planificar las implementaciones.

Vale la pena leer el documento como una introducción sobre cómo las herramientas de IA deben funcionar en entornos clínicos y qué obstáculos enfrentan, tanto por la tecnología como por aquellos que deben adoptarla.


Source link