Semantic Scholar de AI2 se expande para cubrir 175 millones de artículos en todas las disciplinas científicas

Hay muchos artículos científicos por ahí, y encontrar los correctos, o las conexiones correctas entre ellos, puede ser extremadamente difícil. Académico semántico utiliza IA para comprender e indexar artículos de revistas, pero hasta hace poco se ha limitado a un puñado de temas. Ahora se ha expandido para cubrir prácticamente todas las ramas de la ciencia y unos 175 millones de artículos.

Cubrí Semantic Scholar, un proyecto del Instituto Allen para IA, cuando se lanzó por primera vez en 2016, momento en el que solo tenía artículos indexados en informática y neurociencia. Al año siguiente, agregó artículos biomédicos que cubrían una variedad de subtemas.

El problema que intentan resolver es simplemente que hay demasiada información para que la analicen los académicos. Y si bien pueden hacer todo lo posible para mantenerse al día con la literatura, una idea clave o un resultado relevante pueden estar ocultos en una revista oscura que solo obtiene la referencia más vaga en una cita o revisión.

“Lo creamos debido a la sobrecarga de información en la ciencia”, explicó el director del proyecto, Doug Raymond, en una entrevista. “El enfoque del equipo fue, ¿cómo hacemos que la ciencia sea más reconocible?”

Semantic Scholar utiliza el procesamiento del lenguaje natural para obtener la esencia de un documento, comprender qué procesos, sustancias químicas o resultados se describen y hacer que esa información sea fácil de buscar. No solo facilita la búsqueda de literatura relevante para un tema determinado, sino que también puede establecer patrones y encontrar conexiones que podrían no haber sido claras antes.

Por ejemplo, puede ser posible usar la plataforma para identificar tendencias en la autoría en cuanto al género y otros equilibrios demográficos (el trabajo en esto es en marcha), o encontrar malos actores que sistemáticamente se citan a sí mismos. En otros casos, las tendencias pueden tener una relevancia más inmediata: la mayoría de los pacientes con enfermedades renales son mujeres, pero la mayoría de los que se utilizan en los estudios son hombres.

Eso no quiere decir que el sistema esté investigando por sí mismo, pero bajo este tipo de análisis pueden aparecer hechos y tendencias que de otro modo podrían haber permanecido inactivos. Sobre todo porque el sistema ahora abarca la mayoría de los dominios científicos y puede establecer esas conexiones entre ellos y dentro de ellos.

Expandirse de un puñado de disciplinas a prácticamente todas ellas no fue un proceso fácil, aunque los desafíos no son los que podrías imaginar.

“Descubrimos que la mayoría de nuestros modelos se generalizan bien a nuevos dominios de la ciencia”, dijo Raymond. “Dicho esto, siempre hay espacio para mejorar. Algunos dominios tienen convenciones muy diferentes en la forma en que escriben resúmenes o diseñan tablas”.

El modelo de lenguaje que crearon, SciBERT (una evolución de BERT, un agente NLP de propósito más general), ha sido modificado para comprender diferentes tipos de notación, etc. Pero aparentemente no se atragantó, como lo hubiera hecho yo, después de aprender sobre computación y pasar a la química orgánica. Los resultados son lo suficientemente funcionales como para empaquetarlos en algo como Supp.ai.

Raymond dijo que el mayor problema era el desafío más prosaico de mejorar la infraestructura del sistema para admitir el mayor volumen de datos.

“Diría que lo más difícil fue cambiar a una canalización de datos que es instantánea y en tiempo real en lugar de procesarlos por lotes”, explicó Raymond. “Una vez que llegamos a esta escala, con la cantidad de documentos y socios, tuvimos que rehacer la canalización para hacer las cosas en horas en lugar de días”.

Más socios significa trabajar con importantes editoriales científicas como Elsevier y Nature, que con la amenaza de SciHub y la presión de los académicos para avanzar hacia modelos de acceso abierto, sienten la presencia tanto del palo como de la zanahoria en cuanto a trabajar con nuevos esfuerzos como Semantic Scholar.

Tal como está, el sistema ha ingerido la mayor parte de la literatura de acceso abierto que existe y también tiene la información clave para los documentos detrás de los muros de pago: los usuarios simplemente no podrán obtener el documento completo sin pagar. En el otro lado de la ecuación, una asociación con Unpaywall mantiene actualizados los enlaces a los documentos de acceso abierto. Los artículos de acceso abierto, según ha observado la plataforma, son una proporción que aumenta rápidamente de todos los artículos: más del doble, de algo más del 10 % a poco menos del 30 % en la última década.

Ahora que la parte de expansión está casi completa, el equipo de Semantic Scholar está trabajando en algunas características nuevas: resúmenes mejorados de artículos, funciones específicas de dominio y una vista de fuente que podría mostrar, digamos, a un biólogo celular los hallazgos más recientes y relevantes en su campo sin exponerlos a la manguera de fuego de la investigación que se publica constantemente.

Semantic Scholar es de uso gratuito: Lo puedes encontrar aquí.

Source link