Hippocratic está construyendo un gran modelo de lenguaje para el cuidado de la salud

La IA, específicamente la IA generativa, tiene el potencial de transformar la atención médica.

Al menos, ese es el argumento de venta de IA hipocrática, que surgió de la clandestinidad hoy con la friolera de $ 50 millones en financiamiento semilla detrás de él y una valoración en los “millones de tres dígitos”. El tramo, codirigido por General Catalyst y Andreessen Horowitz, es un gran voto de confianza en la tecnología de Hippocratic, un modelo de generación de texto ajustado específicamente para aplicaciones de atención médica.

Hippocratic, nacido de General Catalyst, fue fundado por un grupo de médicos, administradores de hospitales, profesionales de Medicare e investigadores de IA de organizaciones como Johns Hopkins, Stanford, Google y Nvidia. Después de que el cofundador y director ejecutivo Munjal Shah vendiera su empresa anterior, Like.com, un sitio de comparación de compras, a Google en 2010, pasó la mayor parte de la década siguiente construyendo Hippocratic.

“Hippocratic ha creado el primer modelo de lenguaje grande (LLM) centrado en la seguridad diseñado específicamente para la atención médica”, dijo Shah a TechCrunch en una entrevista por correo electrónico. “La misión de la compañía es desarrollar la inteligencia general de salud artificial más segura para mejorar drásticamente la accesibilidad a la atención médica y los resultados de salud”.

Históricamente, la IA en el cuidado de la salud ha tenido un éxito mixto.

Babylon Health, una startup de IA respaldada por el Servicio Nacional de Salud del Reino Unido, se ha encontrado bajo escrutinio repetido por afirmar que su tecnología de diagnóstico de enfermedades puede funcionar mejor que los médicos. IBM se vio obligada a vender con pérdidas su división Watson Health centrada en la IA después de que problemas técnicos provocaran el deterioro de las principales asociaciones con los clientes. En otro lugar, GPT-3 de OpenAI, el predecesor de GPT-4, instó al menos a un usuario a suicidarse.

Shah enfatizó que Hippocratic no se enfoca en diagnosticar. Más bien, dice, la tecnología, que está orientada al consumidor, está dirigida a casos de uso como explicar los beneficios y la facturación, brindar consejos dietéticos y recordatorios de medicamentos, responder preguntas preoperatorias, incorporar pacientes y entregar resultados de pruebas “negativos” que indican que no hay nada. equivocado.

Los resultados de referencia de Hippocratic en una variedad de exámenes médicos. Créditos de imagen: hipocrático

El caso de uso de consejos dietéticos me hizo detenerme, debo decir, a la luz de la mala alimentación relacionada sugerencias IA como la que proporciona ChatGPT de OpenAI. Pero Shah afirma que la IA de Hippocratic supera a los modelos de lenguaje líderes, incluidos GPT-4 y Claude, en más de 100 certificaciones de atención médica, incluido el NCLEX-RN para enfermería, el examen de la Junta Estadounidense de Urología y el examen de dietista registrado.

“Los modelos de lenguaje tienen que ser seguros”, dijo Shah. “Es por eso que estamos construyendo un modelo centrado solo en la seguridad, certificándolo con profesionales de la salud y asociándonos estrechamente con la industria… Esto ayudará a garantizar que las políticas de privacidad y retención de datos sean consistentes con las normas actuales de la industria de la salud”.

Una de las formas en que Hippocratic tiene como objetivo lograr esto es “detectando el tono” y “comunicando empatía” mejor que la tecnología rival, dice Shah, en parte “construyendo” una buena manera de estar junto a la cama (es decir, el escurridizo “toque humano”). Argumenta que la actitud al lado de la cama, especialmente las interacciones que dejan a los pacientes con una sensación de esperanza, incluso en circunstancias sombrías, pueden y afectan los resultados de salud.

Para evaluar la actitud al lado de la cama, Hippocratic diseñó un punto de referencia para probar el modelo en busca de signos de humanismo, por así decirlo, cosas como “mostrar empatía” y “interesarse personalmente en la vida de un paciente”. (Por supuesto, si una sola prueba puede capturar con precisión temas con matices, está sujeto a debate). Como era de esperar, dada la fuente, el modelo de Hippocratic obtuvo la puntuación más alta en todas las categorías de los modelos que Hippocratic probó, incluido GPT-4.

Pero, ¿puede un modelo de lenguaje realmente reemplazar a un trabajador de la salud? Hippocratic invita a la pregunta, argumentando que sus modelos fueron entrenados bajo la supervisión de profesionales médicos y, por lo tanto, son altamente capaces.

“Solo estamos lanzando cada rol (dietista, agente de facturación, asesor genético, etc.) una vez que las personas que actualmente desempeñan ese rol en la vida real estén de acuerdo en que el modelo está listo”, dijo Shah. “Durante la pandemia, los costos laborales aumentaron un 30 % para la mayoría de los sistemas de salud, pero no así los ingresos. Por lo tanto, la mayoría de los sistemas de salud del país tienen dificultades financieras. Los modelos lingüísticos pueden ayudarlos a reducir costos al cubrir su gran nivel actual de vacantes de una manera más rentable”.

No estoy seguro de que los profesionales de la salud estén de acuerdo, particularmente considerando los bajos puntajes del modelo hipocrático en algunas de las certificaciones antes mencionadas. Según Hippocratic, la modelo obtuvo un 71 % en el examen de codificador profesional certificado, que cubre el conocimiento de facturación y codificación médica, y un 72,7 % en un cuestionario de cumplimiento de capacitación en seguridad hospitalaria.

También está la cuestión del posible sesgo. El sesgo plaga la industria de la salud, y estos efectos se filtran a los modelos entrenados en registros médicos, estudios e investigaciones sesgados. Un 2019 estudiarpor ejemplo, descubrió que un algoritmo que muchos hospitales estaban usando para decidir qué pacientes necesitaban atención trataba a los pacientes negros con menos sensibilidad que a los pacientes blancos.

En cualquier caso, uno esperaría que Hippocratic dejara claro que sus modelos no son infalibles. En dominios como la atención médica, el sesgo de automatización o la propensión de las personas a confiar en la IA sobre otras fuentes, incluso si son correctas, conlleva claramente altos riesgos.

Esos detalles se encuentran entre los muchos que Hippocratic aún tiene que resolver. La compañía no está dando a conocer detalles sobre sus socios o clientes, prefiriendo en cambio mantener el enfoque en la financiación. El modelo ni siquiera está disponible en este momento, ni información sobre los datos con los que se entrenó, o con qué datos podría entrenarse en el futuro. (Hipocrático solo diría que usará datos “desidentificados” para el entrenamiento del modelo).

Si espera demasiado, Hippocratic corre el riesgo de quedarse atrás de rivales como Truvetá y Latente – algunos de los cuales tienen una gran ventaja de recursos. Por ejemplo, Google recientemente comenzó a obtener una vista previa de Med-PaLM 2, que afirma que fue el primer modelo de lenguaje que se desempeñó a nivel experto en docenas de preguntas de exámenes médicos. Al igual que el modelo de Hippocratic, Med-PaLM 2 fue evaluado por profesionales de la salud en cuanto a su capacidad para responder preguntas médicas con precisión y seguridad.

Pero Hemant Taneja, director gerente de General Catalyst, no expresó preocupación.

“Munjal y yo creamos esta empresa con la creencia de que la atención médica necesita su propio modelo de lenguaje creado específicamente para las aplicaciones de atención médica, uno que sea justo, imparcial, seguro y beneficioso para la sociedad”, dijo por correo electrónico. “Nos propusimos crear una aplicación de inteligencia artificial de alta integridad que se alimenta con una dieta de datos ‘saludable’ e incluye un enfoque de capacitación que busca incorporar una amplia retroalimentación humana de expertos médicos para cada tarea especializada. En el cuidado de la salud, simplemente no podemos darnos el lujo de ‘moverse rápido y romper cosas’”.

Shah dice que la mayor parte del tramo inicial de $ 50 millones se destinará a invertir en talento, datos informáticos y asociaciones.

Source link