Ícono del sitio La Neta Neta

El modelo de visión por computadora de Microsoft generará texto alternativo para las imágenes de Reddit

El navegador Edge de Microsoft obtiene espacios de trabajo compartidos, nuevas funciones de seguridad y más

Hace dos años, Microsoft anunció Florence, un sistema de inteligencia artificial que presentó como un “replanteamiento completo” de los modelos modernos de visión por computadora. A diferencia de la mayoría de los modelos de visión en ese momento, Florence era tanto “unificado” como “multimodal”, lo que significa que podía (1) comprender el lenguaje y las imágenes y (2) manejar una variedad de tareas en lugar de limitarse a aplicaciones específicas, como generar subtítulos

Ahora, como parte del esfuerzo continuo más amplio de Microsoft para comercializar su investigación de IA, Florence llega como parte de una actualización de las API Vision en Azure Cognitive Services. Microsoft Vision Services con tecnología de Florence se lanza hoy en versión preliminar para los clientes existentes de Azure, con capacidades que van desde subtítulos automáticos, eliminación de fondo y resumen de video hasta recuperación de imágenes.

“Florence está entrenada en miles de millones de pares de imagen y texto. Como resultado, es increíblemente versátil”, dijo John Montgomery, CVP de Azure AI, a TechCrunch en una entrevista por correo electrónico. “Pídele a Florence que encuentre un cuadro en particular en un video, y puede hacerlo; pídale que diga la diferencia entre una manzana Cosmic Crisp y una manzana Honeycrisp, y puede hacerlo”.

La comunidad de investigación de IA, que incluye gigantes tecnológicos como Microsoft, se ha unido cada vez más en torno a la idea de que los modelos multimodales son el mejor camino hacia sistemas de IA más capaces. Naturalmente, los modelos multimodales, modelos que, una vez más, comprenden múltiples modalidades, como lenguaje e imágenes o videos y audio, pueden realizar tareas en una sola toma que los modelos unimodales simplemente no pueden (por ejemplo, subtitular videos).

¿Por qué no encadenar varios modelos “unimodales” para lograr el mismo fin, como un modelo que entiende solo imágenes y otro que entiende exclusivamente lenguaje? Algunas razones, la primera es que los modelos multimodales en algunos casos se desempeñan mejor en la misma tarea que su contraparte unimodal gracias a la información contextual de las modalidades adicionales. Por ejemplo, es probable que un asistente de inteligencia artificial que comprenda imágenes, datos de precios e historial de compras ofrezca sugerencias de productos mejor personalizadas que uno que solo comprenda datos de precios.

La segunda razón es que los modelos multimodales tienden a ser más eficientes desde el punto de vista computacional, lo que conduce a aceleraciones en el procesamiento y (presumiblemente) reducciones de costos en el backend. Microsoft es el negocio impulsado por las ganancias que es, eso es, sin duda, una ventaja.

Entonces, ¿qué pasa con Florencia? Bueno, debido a que comprende imágenes, video y lenguaje y las relaciones entre esas modalidades, puede hacer cosas como medir la similitud entre imágenes y texto o segmentar objetos en una foto y pegarlos en otro fondo.

Le pregunté a Montgomery qué datos usó Microsoft para capacitar a Florence, una pregunta oportuna, pensé, a la luz de pleitos pendientes eso podría decidir si los sistemas de IA entrenados en datos protegidos por derechos de autor, incluidas las imágenes, violan los derechos de los titulares de propiedad intelectual. No dio detalles, excepto que Florence usa fuentes de datos “obtenidas responsablemente”, “incluidos datos de socios”. Además, Montgomery dijo que se eliminó el contenido potencialmente problemático de los datos de entrenamiento de Florence, otro característica demasiado común de conjuntos de datos de formación pública.

“Cuando se usan grandes modelos básicos, es primordial asegurar la calidad del conjunto de datos de entrenamiento, para crear la base para los modelos adaptados para cada tarea de Vision”, dijo Montgomery. “Además, los modelos adaptados para cada tarea de Vision han sido probados para casos justos, contradictorios y desafiantes e implementan los mismos servicios de moderación de contenido que hemos estado usando para Azure Open AI Service y DALL-E”.

Créditos de imagen: microsoft

Tendremos que creer en la palabra de la compañía. Algunos clientes lo son, al parecer. Montgomery dice que Reddit utilizará las nuevas API impulsadas por Florence para generar subtítulos para imágenes en su plataforma, creando “texto alternativo” para que los usuarios con problemas de visión puedan seguir mejor los hilos.

“La capacidad de Florence de generar hasta 10.000 etiquetas por imagen le dará a Reddit mucho más control sobre cuántos objetos en una imagen pueden identificar y ayudará a generar subtítulos mucho mejores”, dijo Montgomery. “Reddit también utilizará los subtítulos para ayudar a todos los usuarios a mejorar la clasificación de los artículos para buscar publicaciones”.

Microsoft también está utilizando Florence en una franja de sus propias plataformas, productos y servicios.

En LinkedIn, al igual que en Reddit, los servicios impulsados ​​por Florence generarán subtítulos para editar y admitir descripciones de imágenes de texto alternativo. En Microsoft Teams, Florence está impulsando las capacidades de segmentación de video. PowerPoint, Outlook y Word están aprovechando las capacidades de subtítulos de imágenes de Florence para la generación automática de texto alternativo. Y Designer y OneDrive, cortesía de Florence, han mejorado el etiquetado de imágenes, la búsqueda de imágenes y la generación de fondos.

Montgomery ve que los clientes utilizan Florence para mucho más en el futuro, como detectar defectos en la fabricación y permitir el autopago en las tiendas minoristas. Ninguno de esos casos de uso requiere un modelo de visión multimodal, señalaría. Pero Montgomery afirma que la multimodalidad agrega algo valioso a la ecuación.

“Florence es un replanteamiento completo de los modelos de visión”, dijo Montgomery. “Una vez que hay una traducción fácil y de alta calidad entre imágenes y texto, se abre un mundo de posibilidades. Los clientes podrán experimentar una búsqueda de imágenes significativamente mejorada, entrenar modelos de imagen y visión y otros tipos de modelos como el lenguaje y el habla en tipos de aplicaciones completamente nuevos y mejorar fácilmente la calidad de sus propias versiones personalizadas”.


Source link
Salir de la versión móvil