El aprendizaje activo es el futuro de la IA generativa: aquí se explica cómo aprovecharlo

Antes de que Eric Landau co-fundara encordar, pasó casi una década en DRW, donde fue investigador cuantitativo principal en una mesa delta one de renta variable global y puso en producción miles de modelos. Tiene un SM en Física Aplicada de la Universidad de Harvard, una maestría en Ingeniería Eléctrica y una licenciatura en Física de la Universidad de Stanford.

Durante los últimos seis meses, hemos sido testigos de algunos desarrollos increíbles en IA. El lanzamiento de Stable Diffusion cambió para siempre el mundo del arte, y ChatGPT-3 sacudió Internet con su capacidad para escribir canciones, imitar trabajos de investigación y proporcionar respuestas completas y aparentemente inteligentes a las preguntas más frecuentes en Google.

Estos avances en la IA generativa ofrecen más evidencia de que estamos al borde de una revolución de la IA.

Sin embargo, la mayoría de estos modelos generativos de IA son modelos fundamentales: sistemas de aprendizaje no supervisados de alta capacidad que se entrenan con grandes cantidades de datos y requieren millones de dólares de poder de procesamiento para hacerlo. Actualmente, solo las instituciones bien financiadas con acceso a una gran cantidad de potencia de GPU son capaces de construir estos modelos.

La mayoría de las empresas que desarrollan la IA de capa de aplicación que está impulsando la adopción generalizada de la tecnología aún confían en el aprendizaje supervisado, utilizando grandes franjas de datos de entrenamiento etiquetados. A pesar de las impresionantes proezas de los modelos básicos, todavía estamos en los primeros días de la revolución de la IA y numerosos cuellos de botella están frenando la proliferación de la IA en la capa de aplicación.

Aguas abajo del conocido problema de etiquetado de datos, existen cuellos de botella de datos adicionales que dificultarán el desarrollo de la IA en etapas posteriores y su implementación en entornos de producción.

Estos problemas son la razón por la cual, a pesar de la promesa inicial y las inundaciones de inversión, las tecnologías como los automóviles autónomos han estado a solo un año de distancia desde 2014.

Estos emocionantes modelos de prueba de concepto funcionan bien en conjuntos de datos de referencia en entornos de investigación, pero tienen dificultades para predecir con precisión cuando se publican en el mundo real. Un problema importante es que la tecnología lucha por cumplir con el umbral de rendimiento más alto requerido en entornos de producción de alto riesgo y no logra alcanzar puntos de referencia importantes de robustez, confiabilidad y mantenibilidad.

Por ejemplo, estos modelos a menudo no pueden manejar valores atípicos y casos límite, por lo que los automóviles autónomos confunden los reflejos de las bicicletas con las propias bicicletas. No son confiables ni robustos, por lo que un robot barista hace un capuchino perfecto dos de cada cinco veces, pero derrama la taza las otras tres.

Como resultado, la brecha de producción de IA, la brecha entre “eso es genial” y “eso es útil”, ha sido mucho mayor y más formidable de lo que anticiparon los ingenieros de ML.

Contrariamente a la intuición, los mejores sistemas también tienen la mayor interacción humana.

Afortunadamente, a medida que más y más ingenieros de ML han adoptado un enfoque centrado en los datos para el desarrollo de IA, la implementación de estrategias de aprendizaje activo ha ido en aumento. Las empresas más sofisticadas aprovecharán esta tecnología para superar la brecha de producción de IA y construir modelos capaces de ejecutarse en la naturaleza más rápidamente.

¿Qué es el aprendizaje activo?

El aprendizaje activo hace que entrenar un modelo supervisado sea un proceso iterativo. El modelo entrena en un subconjunto inicial de datos etiquetados de un gran conjunto de datos. Luego, intenta hacer predicciones sobre el resto de los datos no etiquetados en función de lo que ha aprendido. Los ingenieros de ML evalúan la certeza del modelo en sus predicciones y, mediante el uso de una variedad de funciones de adquisiciónpuede cuantificar el beneficio de rendimiento agregado al anotar una de las muestras sin etiquetar.

Al expresar incertidumbre en sus predicciones, el modelo decide por sí mismo qué datos adicionales serán más útiles para su entrenamiento. Al hacerlo, pide a los anotadores que proporcionen más ejemplos solo de ese tipo específico de datos para que pueda entrenar más intensamente en ese subconjunto durante su próxima ronda de entrenamiento. Piense en ello como interrogar a un estudiante para averiguar dónde está su brecha de conocimiento. Una vez que sepa qué problemas les faltan, puede proporcionarles libros de texto, presentaciones y otros materiales para que puedan enfocar su aprendizaje para comprender mejor ese aspecto particular del tema.

Con el aprendizaje activo, el entrenamiento de un modelo pasa de ser un proceso lineal a uno circular con un fuerte ciclo de retroalimentación.

Por qué las empresas sofisticadas deberían estar preparadas para aprovechar el aprendizaje activo

El aprendizaje activo es fundamental para cerrar la brecha entre la producción de prototipos y aumentar la confiabilidad del modelo.

Es un error común pensar en los sistemas de IA como una pieza estática de software, pero estos sistemas deben aprender y evolucionar constantemente. Si no, cometen los mismos errores repetidamente o, cuando son liberados en la naturaleza, se encuentran con nuevos escenarios, cometen nuevos errores y no tienen la oportunidad de aprender de ellos.

Source link