OpenAI está probando una versión de GPT-4 que puede ‘recordar’ largas conversaciones

OpenAI ha creado una versión de GPT-4, su último modelo de generación de texto, que puede “recordar” aproximadamente 50 páginas de contenido gracias a una ventana de contexto muy ampliada.

Eso podría no sonar significativo. Pero es cinco veces más información de la que el GPT-4 estándar puede contener en su “memoria” y ocho veces más que el GPT-3.

“El modelo puede usar documentos largos de manera flexible”, dijo Greg Brockman, cofundador y presidente de OpenAI, durante una demostración en vivo esta tarde. “Queremos ver qué tipo de aplicaciones [this enables].”

Cuando se trata de IA generadora de texto, la ventana de contexto se refiere al texto que el modelo considera antes de generar texto adicional. Si bien los modelos como GPT-4 “aprenden” a escribir entrenándose con miles de millones de ejemplos de texto, solo pueden considerar una pequeña fracción de ese texto a la vez, determinada principalmente por el tamaño de su ventana de contexto.

Los modelos con ventanas de contexto pequeñas tienden a “olvidar” el contenido de incluso conversaciones muy recientes, lo que los lleva a desviarse del tema. Después de unas pocas miles de palabras, también olvidan sus instrucciones iniciales y, en cambio, extrapolan su comportamiento a partir de la última información dentro de su ventana de contexto en lugar de la solicitud original.

Allen Pike, un ex ingeniero de software de Apple, colorido explica de esta manera:

“[The model] olvidará todo lo que intentes enseñarle. Se olvidará de que vives en Canadá. Se olvidará de que tienes hijos. Olvidará que odias reservar cosas los miércoles y por favor deja de sugerir cosas los miércoles, maldita sea. Si ninguno de ustedes ha mencionado su nombre por un tiempo, también lo olvidará. hablar con un [GPT-powered] personaje por un tiempo, y puedes comenzar a sentir que te estás vinculando con él, llegando a un lugar realmente genial. A veces se confunde un poco, pero eso también le pasa a la gente. Pero eventualmente, el hecho de que no tiene memoria a mediano plazo se vuelve claro y la ilusión se hace añicos”.

Todavía no hemos podido obtener la versión de GPT-4 con la ventana de contexto ampliada, gpt-4-32k. (OpenAI dice que está procesando solicitudes para los modelos GPT-4 de alto y bajo contexto a “diferentes tasas según la capacidad”). Pero no es difícil imaginar cómo las conversaciones con él podrían ser mucho más convincentes que las del anterior. modelo de generación.

Con una “memoria” más grande, GPT-4 debería poder conversar de manera relativamente coherente durante horas, incluso varios días, en lugar de minutos. Y quizás lo más importante, debería ser menos probable que se descarrile. Como señala Pike, una de las razones por las que los chatbots como Bing Chat pueden verse obligados a comportarse mal es porque sus instrucciones iniciales (ser un chatbot útil, responder con respeto, etc.) se eliminan rápidamente de sus ventanas de contexto mediante indicaciones y respuestas adicionales.

Puede ser un poco más matizado que eso. Pero la ventana de contexto juega un papel importante en la puesta a tierra de los modelos. sin duda. Con el tiempo, veremos qué tipo de diferencia tangible hace.

Source link