Mientras aumenta la anticipación para GPT-4, OpenAI lanza silenciosamente GPT-3.5

Lanzado hace dos años, OpenAI es notablemente capaz, si es defectuoso, GPT-3 fue quizás el primero en demostrar que la IA puede escribir de manera convincente, si no perfecta, como un ser humano. Se espera que el sucesor de GPT-3, probablemente llamado GPT-4, se dé a conocer en un futuro cercano, tal vez en 2023. Pero mientras tanto, OpenAI ha lanzado silenciosamente una serie de modelos de IA basados en “GPT- 3.5”, una versión mejorada de GPT-3 no anunciada previamente.

GPT-3.5 salió a la luz el miércoles con ChatGPT, una versión mejorada de GPT-3.5 que es esencialmente un chatbot de propósito general. Debutó en un demostración pública ayer por la tarde, ChatGPT puede interactuar con una variedad de temas, que incluyen programación, guiones de televisión y conceptos científicos.

De acuerdo a a OpenAI, GPT-3.5 se entrenó en una combinación de texto y código publicado antes del cuarto trimestre de 2021. Al igual que GPT-3 y otras IA generadoras de texto, GPT-3.5 aprendió las relaciones entre oraciones, palabras y partes de palabras al ingerir grandes cantidades de contenido de la web, incluidos cientos de miles de entradas de Wikipedia, publicaciones en redes sociales y artículos de noticias.

En lugar de lanzar el GPT-3.5 completamente capacitado, OpenAI lo usó para crear varios sistemas ajustados para tareas específicas, cada uno disponible a través de la API de OpenAI. Uno, text-davinci-003, puede manejar instrucciones más complejas que los modelos creados en GPT-3, según el laboratorio, y es considerablemente mejor tanto en la escritura de formato largo como en la de “alta calidad”.

Según el científico de datos de OpenAI Jan Leike, text-davinci-003 es similar pero no idéntico a InstructGPT, una familia de modelos basados en GPT-3 lanzados por OpenAI a principios de este año que tienen menos probabilidades de generar problemas (por ejemplo, tóxicos y altamente sesgados). ) texto mientras se alinea más estrechamente con la intención del usuario. Text-davinci-003, y por extensión GPT-3.5, “puntúa más alto en las calificaciones de preferencia humana” mientras sufre limitaciones “menos severas”, dijo Leike en un tuit.

¡El modelo definitivamente todavía tiene limitaciones importantes! Básicamente, todos los de nuestra publicación de blog anterior se seguirán aplicando, pero es de esperar que sean menos graves / más raramente ahora.https://t.co/r8zWWYSIJ6

— Jan Leike (@janleike) 28 de noviembre de 2022

Ese parece ser el caso anecdóticamente. Científicos de datos en Pepper Content, una plataforma de marketing de contenido, reporte que text-davinci-003 “se desempeña mejor en la comprensión del ‘contexto’ detrás de una solicitud y luego lo usa para producir mejor contenido” mientras “alucina” menos que los modelos basados en GPT-3. (En lo que respecta a la IA que genera texto, la alucinación se refiere a una IA que escribe declaraciones inconsistentes y objetivamente incorrectas).

En una prueba en el sitio web Playground de OpenAI, que proporciona una interfaz de interfaz de usuario para los modelos, el equipo de Pepper Content envió varias indicaciones a text-davinci-003 y un modelo basado en GPT-3 (text-davinci-002). Teniendo en cuenta “¿Cuál es la filosofía detrás de WeWork?”, el texto-davinci-003 basado en GPT-3.5 generó esto:

WeWork es un proveedor global de espacios de trabajo que cree que las personas son el activo más importante de cualquier organización. La filosofía de WeWork es crear un entorno colaborativo que permita a las personas trabajar juntas de manera flexible y eficiente. La empresa fomenta la colaboración y la productividad, al mismo tiempo que proporciona un espacio cómodo e inspirador.

WeWork también se compromete a ser una organización socialmente responsable, encontrando formas de reducir su impacto ambiental, brindando experiencias laborales significativas y promoviendo la diversidad y la inclusión. WeWork también se esfuerza por crear experiencias significativas para sus miembros, a través de su programación, eventos y actividades únicas basadas en la comunidad. La empresa cree que cuando las personas trabajan juntas en un entorno inspirador y colaborativo, pueden lograr más y crear un cambio significativo.

No es perfecto: tenga en cuenta el exceso de comas y la repetición. Pero la copia es ciertamente más atractiva que lo que produjo el texto-davinci-002 basado en GPT-3:

En WeWork, creemos en la apertura, la colaboración y la comunidad. Hemos reinventado lo que puede ser un espacio de trabajo al reunir a una comunidad global de creadores, emprendedores y nuevas empresas: cualquiera que busque construir algo significativo y transformar el mundo. Estamos orgullosos de ser su vecino, compañero de trabajo y amigo.

GPT-3.5 también es mejor para generar publicaciones de blog, al parecer. Esto es lo que obtuvo el equipo de Pepper Content cuando pidieron a text-davinci-003 que escribiera una publicación sobre elegir un sofá:

Si está buscando darle a su sala de estar verde una apariencia fresca, agregar el mejor sofá para el espacio es una excelente manera de comenzar. Sin embargo, para elegir el sofá perfecto hay más que solo encontrar una pieza que se vea bien. Desea encontrar una pieza que sea cómoda y se adapte a la decoración verde de su sala de estar.

En este blog, discutiremos cómo elegir un sofá para su sala de estar verde. Veremos los diferentes tipos de sofás disponibles, los factores de diseño a considerar al hacer su selección y cómo elegir un sofá que se adapte a su estilo y presupuesto. También le daremos consejos sobre cómo mantener y cuidar su nuevo sofá. Al final de este blog, tendrá toda la información que necesita para elegir el perfecto para su sala de estar verde.

Una vez más, no es infalible. GPT-3.5 extrañamente agregó algo sobre una “sala de estar verde”. Pero también de nuevo, GPT-3 es más básico y menos gramaticalmente correcto en su generación:

El sofá es uno de los requisitos más básicos en una sala de estar. No es solo un mueble, sino una parte importante de la decoración de su sala de estar. Entonces, ¿cuáles deberían ser los criterios al elegir un sofá? Si se está preguntando acerca de esto, quédese conmigo mientras analizo los diferentes aspectos del sofá que lo ayudarían a elegir el mejor para usted.

Los experimentos más allá de Pepper Content sugieren que GPT-3.5 tiende a ser mucho más sofisticado y completo en sus respuestas que GPT-3. Por ejemplo, cuando el canal de YouTube All About AI incitado text-davinci-003 para escribir una historia sobre la IA, el resultado del modelo mencionó luminarias clave en el campo, incluidos Alan Turing y Arthur Samuelson, mientras que text-davinci-002 no lo hizo. All About AI también descubrió que text-davinci-003 tendía a tener una comprensión más matizada de las instrucciones, por ejemplo, brindaba detalles como un título, descripción, esquema, introducción y resumen cuando se le pedía que creara un guión de video.

Eso no es casualidad: una característica distintiva de las salidas de text-davinci-003/GPT-3.5 es la verbosidad. (Este escritor puede simpatizar.) En un análisislos científicos de la startup Scale AI descubrieron que text-davinci-003/GPT-3.5 genera salidas aproximadamente un 65 % más largas que text-davinci-002/GPT-3 con indicaciones idénticas.

Tal vez menos útil para la mayoría de los usuarios potenciales, pero no obstante entretenido, text-davinci-003/GPT-3.5 es superior en la composición de canciones, quintillas y rimas poéticas que su predecesor. Ars Technica informes que los comentaristas en el foro Hacker News de Y Combinator usaron text-davinci-003 para escribir un poema que explica la teoría de la relatividad de Albert Einstein y luego reescribieron el poema al estilo de John Keats. Ver:

Si quieres entender el pensamiento de Einstein
No es tan difícil si le das una oportunidad
La relatividad general es el nombre del juego.
Donde el espacio y el tiempo no pueden permanecer iguales
La masa afecta la curvatura del espacio.
Que afecta el flujo de la carrera del tiempo
El movimiento de un objeto se verá afectado
Por la distorsión que se detecta
Cuanto más cerca estés de una gran masa
El tiempo más lento parecerá pasar
Cuanto más lejos estés
El tiempo se acelerará para que veas

El equipo de Scale AI incluso encontró que text-davinci-003/GPT-3.5 tiene una noción de metros como pentámetro yámbico. Ver:

Oh gentiles corceles, que me llevan rápido y

Por supuesto

A través de campos de verde y caminos tan

oscuro,

Mi corazón se hincha de orgullo por estar con

tú

A medida que montamos el mundo de nuevo para ver

El viento silba a través de nuestro cabello para que

libre

Y despierta una pasión muy dentro de mí.

Mi alma se eleva, mi espíritu se eleva en lo alto,

Para viajar contigo, mi mejor amigo, ¿soy yo?

Tu fuerza y gracia, tu coraje y

tu fuego,

Inspíranos a ambos a ir más allá de nuestro padre.

Ningún lazo terrenal puede detenernos, solo el destino,

Para galopar, nuestro maravilloso curso crea

De manera relacionada, GPT-3.5 es más ingenioso que GPT-3, al menos desde un punto de vista subjetivo. Pedir text-davinci-002/GPT-3 para “contar un chiste” por lo general produce esto:

¿Por que la gallina cruzo la calle? Llegar al otro lado.

Text-davinci-003/GPT-3.5 tiene respuestas más inteligentes:

P: ¿Qué dijo el pez cuando golpeó la pared? R: ¡Maldición!

P: ¿Qué le dijo un océano al otro océano? A: Nada, solo saludaron.

Scale AI hizo que el modelo explicara el código Python al estilo de Eminem, una hazaña que text-davinci-002/GPT-3 simplemente no pudo lograr:

Oye, estoy recorriendo esta lista

Con cada artículo que encuentro

Voy a imprimir cada letra en cada uno

de ellos

Perro, Gato, Plátano, Manzana, los atraparé

todo con esta rima

Entonces, ¿por qué GPT-3.5 es mejor que GPT-3 en estas áreas en particular? No podemos saber la respuesta exacta sin detalles adicionales de OpenAI, que no están disponibles; un portavoz de OpenAI rechazó una solicitud de comentarios. Pero es seguro asumir que el enfoque de entrenamiento de GPT-3.5 tuvo algo que ver con eso. Al igual que InstructGPT, GPT-3.5 se entrenó con la ayuda de entrenadores humanos que clasificaron y clasificaron la forma en que las primeras versiones del modelo respondían a las indicaciones. Luego, esta información se retroalimentó al sistema, que ajustó sus respuestas para que coincidieran con las preferencias de los capacitadores.

Por supuesto, esto no hace que GPT-3.5 sea inmune a las trampas a las que sucumben todos los modelos de lenguaje modernos. Debido a que GPT-3.5 simplemente se basa en regularidades estadísticas en sus datos de entrenamiento en lugar de una comprensión humana del mundo, todavía es propenso, en palabras de Leike, a “hacer[ing] llenar un montón. También tiene un conocimiento limitado del mundo después de 2021 porque sus datos de entrenamiento son más escasos después de ese año. Y las protecciones del modelo contra la salida tóxica pueden ser eludido.

Aún así, GPT-3.5 y sus modelos derivados demuestran que GPT-4, siempre que llegue, no necesariamente necesitará una gran cantidad de parámetros para mejorar los sistemas de generación de texto más capaces de la actualidad. (Los parámetros son las partes del modelo aprendidas de los datos históricos de entrenamiento y esencialmente definen la habilidad del modelo en un problema). Mientras que algunos tienen predicho que GPT-4 contendrá más de 100 billones de parámetros, casi 600 veces más que GPT-3; otros argumentan que las técnicas emergentes en el procesamiento del lenguaje, como las que se ven en GPT-3.5 e InstructGPT, harán que ese salto sea innecesario.

Una de esas técnicas podría implicar navegar por la web para obtener un mayor contexto, a la Meta desafortunado chatbot BlenderBot 3.0. John Shulman, científico investigador y cofundador de OpenAI, dicho MIT Tech Review en una entrevista reciente que OpenAI continúa trabajando en un modelo de lenguaje que anunció a fines del año pasado, WebGPT, que puede ir y buscar información en la web (a través de Bing) y brindar fuentes para sus respuestas. Al menos un usuario de Twitter aparece haber encontrado evidencia de que la función se estaba probando para ChatGPT.

OpenAI tiene otra razón para buscar modelos de parámetros más bajos a medida que continúa evolucionando GPT-3: costos enormes. Un 2020 estudiar de Laboratorios AI21 fijó los gastos para desarrollar un modelo de generación de texto con solo 1.500 millones de parámetros en hasta $ 1.6 millones. OpenAI tiene aumentó más de mil millones de dólares hasta la fecha de Microsoft y otros patrocinadores, y es según se informa en conversaciones para recaudar más. Pero todos los inversores, sin importar cuán grandes sean, esperan ver rendimientos eventualmente.

Source link