Millones de imágenes históricas de periódicos reciben el tratamiento de aprendizaje automático en la Biblioteca del Congreso

Los historiadores interesados en la forma en que se narraban los eventos y las personas en los viejos tiempos tuvieron que buscar en catálogos de fichas documentos antiguos, luego escaneos de microfichas, luego listados digitales, pero los avances modernos pueden indexarlos hasta cada palabra y foto individual. Un nuevo esfuerzo de la Biblioteca del Congreso ha digitalizado y organizado fotografías e ilustraciones de siglos de noticias utilizando aprendizaje automático de última generación.

Dirigido por Ben Lee, investigador de la Universidad de Washington que ocupa el espacio de la Biblioteca “Innovador en Residencia” posición, el navegador de periódicos recopila y muestra datos de imágenes de unos 16 millones de páginas de periódicos a lo largo de la historia de Estados Unidos.

Lee y sus colegas se inspiraron en el trabajo que ya se estaba realizando en Chronicling America, un esfuerzo continuo de digitalización de periódicos antiguos y otros materiales impresos similares. Si bien ese trabajo usó el reconocimiento óptico de caracteres para escanear el contenido de todos los documentos, también hubo un proyecto colaborativo en el que las personas identificaron y delinearon imágenes para su posterior análisis. Los voluntarios dibujaron recuadros alrededor de las imágenes relacionadas con la Primera Guerra Mundial, luego transcribieron los subtítulos y categorizaron la imagen.

Este esfuerzo limitado puso a pensar al equipo.

“Me encantó porque enfatizaba la naturaleza visual de las páginas: al ver la diversidad visual del contenido que surge del proyecto, pensé que era genial y me preguntaba cómo sería hacer una crónica de contenido como este de todos. sobre América”, dijo Lee a TechCrunch.

También se dio cuenta de que lo que los voluntarios habían creado era, de hecho, un conjunto ideal de datos de entrenamiento para un sistema de aprendizaje automático. “La pregunta era, ¿podríamos usar este material para crear un modelo de detección de objetos para revisar todos los periódicos, para abrir el cofre del tesoro?”

La respuesta, felizmente, fue sí. Usando el trabajo inicial impulsado por humanos de delinear imágenes y subtítulos como datos de entrenamiento, crearon un agente de IA que podría hacerlo por sí solo. Después de los ajustes y la optimización habituales, lo soltaron en la base de datos completa de escaneos de periódicos de Chronicling America.

“Funcionó durante 19 días sin parar, definitivamente el trabajo informático más grande que jamás haya realizado”, dijo Lee. Pero los resultados son notables: millones de imágenes que abarcan tres siglos (desde 1789 hasta 1963) y organizadas con metadatos extraídos de sus propios títulos. El equipo describe su trabajo en un artículo que puedes leer aquí.

Suponiendo que los subtítulos sean del todo precisos, estas imágenes (hasta hace poco solo se podía acceder a ellas recorriendo los archivos fecha por fecha y documento por documento) se pueden buscar por su contenido, como cualquier otro corpus.

¿Busca fotografías del presidente en 1870? No es necesario navegar por docenas de periódicos en busca de posibles éxitos y verificar dos veces el contenido en el pie de foto; simplemente busque en Newspaper Navigator “presidente 1870”. O si desea caricaturas editoriales de la era de la Segunda Guerra Mundial, puede obtener todas las ilustraciones de un rango de fechas. (El equipo ya comprimió las fotos en paquetes anuales y planea otras colecciones).

Aquí hay algunos ejemplos de páginas de periódicos con las determinaciones del sistema de aprendizaje automático superpuestas (advertencia: muchos anuncios de sombreros y racismo):

Eso es divertido por unos minutos para los navegadores casuales, pero la clave es lo que abre para los investigadores y otros conjuntos de documentos. El equipo está lanzando un atasco de datos hoy para celebrar el lanzamiento del conjunto de datos y las herramientas, durante el cual esperan descubrir y habilitar nuevas aplicaciones.

“Con suerte, será una excelente manera de reunir a las personas para pensar en formas creativas en las que se puede usar el conjunto de datos”, dijo Lee. “La idea que realmente me emociona desde la perspectiva del aprendizaje automático es intentar crear una interfaz de usuario en la que las personas puedan crear su propio conjunto de datos. Caricaturas políticas o anuncios de moda, solo deje que los usuarios definan lo que les interesa y entrene un clasificador basado en eso”.

Una muestra de lo que podría obtener si solicita mapas de la era de la Guerra Civil.

En otras palabras, el agente de IA de Newspaper Navigator podría ser el padre de toda una serie de otros más específicos que podrían usarse para escanear y digitalizar otras colecciones. Ese es en realidad el plan dentro de la Biblioteca del Congreso, donde el equipo de colecciones digitales ha estado encantado con las posibilidades que ofrece Newspaper Navigator y el aprendizaje automático en general.

“Una de las cosas que nos interesa es cómo la computación puede expandir la forma en que permitimos la búsqueda y el descubrimiento”, dijo Kate Zwaard. “Debido a que tenemos OCR, puede encontrar cosas que le hubiera llevado meses o semanas encontrar. La colección de libros de la Biblioteca tiene todas estas hermosas láminas e ilustraciones. Pero si quieres saber qué fotos hay de la Virgen y el niño, algunas están categorizadas, pero otras están dentro de libros que no están catalogados”.

Eso podría cambiar rápidamente con una IA de imágenes y subtítulos que los estudie sistemáticamente.

Newspaper Navigator, el código detrás de él y todas las imágenes y resultados de él son completamente de dominio público, libres de usar o modificar para cualquier propósito. Puedes sumergirte en el código en el GitHub del proyecto.

Source link