OpenAI lanza GPT-4, una IA multimodal que, según afirma, es de última generación

Neto

hace 3 años

OpenAI lanza GPT-4, una IA multimodal que, según afirma, es de última generación

OpenAI tiene liberado un nuevo y poderoso modelo de IA de comprensión de imágenes y texto, GPT-4, que la compañía llama “el último hito en su esfuerzo por ampliar el aprendizaje profundo”.

GPT-4 está disponible hoy para los usuarios de pago de OpenAI a través de ChatGPT Plus (con un límite de uso), y los desarrolladores pueden registrarse en un lista de espera para acceder a la API.

El precio es de $0,03 por 1000 tokens de “solicitud” (alrededor de 750 palabras) y de $0,06 por 1000 tokens de “finalización” (nuevamente, alrededor de 750 palabras). Los tokens representan texto sin formato; por ejemplo, la palabra “fantástico” se dividiría en los tokens “fan”, “tas” y “tic”. Los tokens rápidos son las partes de las palabras que se introducen en GPT-4, mientras que los tokens de finalización son el contenido generado por GPT-4.

Resulta que GPT-4 se ha estado escondiendo a simple vista. microsoft confirmado hoy que Bing Chat, su tecnología de chatbot desarrollada conjuntamente con OpenAI, se ejecuta en GPT-4.

Otros de los primeros en adoptar incluyen Stripe, que es usando GPT-4 para escanear sitios web comerciales y entregar un resumen al personal de atención al cliente. Duolingo construido GPT-4 en un nuevo nivel de suscripción de aprendizaje de idiomas. Morgan Stanley está creando un sistema impulsado por GPT-4 que recuperará información de los documentos de la empresa y la entregará a los analistas financieros. Y Khan Academy está aprovechando GPT-4 para crear una especie de tutor automatizado.

GPT-4 puede generar texto y aceptar entradas de imágenes y texto, una mejora con respecto a GPT-3.5, su predecesor, que solo aceptaba texto, y funciona a “nivel humano” en varios puntos de referencia profesionales y académicos. Por ejemplo, GPT-4 aprueba un examen de barra simulado con una puntuación de alrededor del 10 % superior de los examinados; por el contrario, la puntuación de GPT-3.5 se situó en torno al 10 % inferior.

OpenAI pasó seis meses “alineando iterativamente” GPT-4 usando lecciones de un programa interno de pruebas contradictorias, así como ChatGPT, lo que resultó en “los mejores resultados” en factualidad, capacidad de dirección y negación a salirse de las barandillas, según la compañía. Al igual que los modelos GPT anteriores, GPT-4 se entrenó utilizando datos disponibles públicamente, incluso de páginas web públicas, así como datos con licencia de OpenAI.

OpenAI trabajó con Microsoft para desarrollar una “supercomputadora” desde cero en la nube de Azure, que se usó para entrenar GPT-4.

“En una conversación informal, la distinción entre GPT-3.5 y GPT-4 puede ser sutil”, escribió OpenAI en una publicación de blog anunciando GPT-4. “La diferencia surge cuando la complejidad de la tarea alcanza un umbral suficiente: GPT-4 es más confiable, creativo y capaz de manejar instrucciones mucho más matizadas que GPT-3.5”.

Sin duda, uno de los aspectos más interesantes de GPT-4 es su capacidad para comprender tanto las imágenes como el texto. GPT-4 puede subtitular, e incluso interpretar, imágenes relativamente complejas, por ejemplo, identificando un adaptador de cable Lightning a partir de una imagen de un iPhone enchufado.

La capacidad de comprensión de imágenes aún no está disponible para todos los clientes de OpenAI; para empezar, OpenAI la está probando con un solo socio, Be My Eyes. Con tecnología GPT-4, la nueva función de Voluntario Virtual de Be My Eyes puede responder preguntas sobre las imágenes que se le envían. La empresa explica cómo funciona en un entrada en el blog:

“Por ejemplo, si un usuario envía una foto del interior de su refrigerador, el Voluntario Virtual no solo podrá identificar correctamente lo que contiene, sino también extrapolar y analizar qué se puede preparar con esos ingredientes. La herramienta también puede ofrecer una serie de recetas para esos ingredientes y enviar una guía paso a paso sobre cómo prepararlos”.

Una mejora más significativa en GPT-4, potencialmente, es la herramienta de dirección antes mencionada. Con GPT-4, OpenAI está introduciendo una nueva capacidad de API, mensajes de “sistema”, que permiten a los desarrolladores prescribir estilos y tareas describiendo instrucciones específicas. Los mensajes del sistema, que también llegarán a ChatGPT en el futuro, son esencialmente instrucciones que marcan la pauta y establecen límites para las próximas interacciones de la IA.

Por ejemplo, un mensaje del sistema podría decir: “Eres un tutor que siempre responde en estilo socrático. Nunca le da la respuesta al estudiante, pero siempre trata de hacer la pregunta correcta para ayudarlo a aprender a pensar por sí mismo. Siempre debe ajustar su pregunta al interés y conocimiento del estudiante, dividiendo el problema en partes más simples hasta que esté en el nivel adecuado para ellos”.

Sin embargo, incluso con los mensajes del sistema y las otras actualizaciones, OpenAI reconoce que GPT-4 está lejos de ser perfecto. Todavía “alucina” hechos y comete errores de razonamiento, a veces con gran confianza. En un ejemplo citado por OpenAI, GPT-4 describió a Elvis Presley como el “hijo de un actor”, un paso en falso obvio.

“GPT-4 generalmente carece de conocimiento de los eventos que ocurrieron después de que la gran mayoría de sus datos se cortaron (septiembre de 2021) y no aprende de su experiencia”, escribió OpenAI. “A veces puede cometer errores de razonamiento simples que no parecen corresponder con la competencia en tantos dominios, o ser demasiado crédulo al aceptar declaraciones falsas obvias de un usuario. Y a veces puede fallar en problemas difíciles de la misma manera que lo hacen los humanos, como introducir vulnerabilidades de seguridad en el código que produce”.

Sin embargo, OpenAI nota que realizó mejoras en áreas particulares; Es menos probable que GPT-4 rechace solicitudes sobre cómo sintetizar productos químicos peligrosos, por ejemplo. La compañía dice que GPT-4 tiene un 82 % menos de probabilidades en general de responder a solicitudes de contenido “no permitido” en comparación con GPT-3.5 y responde a solicitudes confidenciales, por ejemplo, consejos médicos y cualquier cosa relacionada con la autolesión, de acuerdo con las políticas de OpenAI 29 % más a menudo.

Créditos de imagen: IA abierta

Claramente hay mucho que desempacar con GPT-4. Pero OpenAI, por su parte, está avanzando a toda máquina, evidentemente confiado en las mejoras que ha realizado.

“Esperamos que GPT-4 se convierta en una herramienta valiosa para mejorar la vida de las personas al potenciar muchas aplicaciones”, escribió OpenAI. “Todavía hay mucho trabajo por hacer, y esperamos mejorar este modelo a través de los esfuerzos colectivos de la comunidad construyendo, explorando y contribuyendo al modelo”.

Source link