5 formas en que GPT-4 supera a ChatGPT

El nuevo modelo de IA GPT-4 de OpenAI hizo su gran debut y ya está impulsando todo, desde un voluntario virtual para personas con discapacidad visual hasta un bot de aprendizaje de idiomas mejorado en Duolingo. Pero, ¿qué diferencia a GPT-4 de versiones anteriores como ChatGPT y GPT-3.5? Aquí están las cinco mayores diferencias entre estos sistemas populares.

Primero, sin embargo, ¿qué hay en un nombre? Aunque ChatGPT se describió originalmente como GPT-3.5 (y, por lo tanto, algunas iteraciones más allá de GPT-3), no es en sí mismo una versión del modelo de lenguaje grande de OpenAI, sino una interfaz basada en chat para cualquier modelo que lo impulse. El sistema ChatGPT que explotó en popularidad en los últimos meses era una forma de interactuar con GPT-3.5 y ahora es una forma de interactuar con GPT-4.

Dicho esto, analicemos las diferencias entre el chatbot que conoce y ama y su sucesor recientemente mejorado.

1. GPT-4 puede ver y comprender imágenes

El cambio más notable de este versátil sistema de aprendizaje automático es que es “multimodal”, lo que significa que puede comprender más de una “modalidad” de información. ChatGPT y GPT-3 estaban limitados al texto: podían leer y escribir, pero eso era todo (aunque más que suficiente para muchas aplicaciones).

GPT-4, sin embargo, puede recibir imágenes y las procesará para encontrar información relevante. Simplemente puede pedirle que describa lo que hay en una imagen, por supuesto, pero lo más importante es que su comprensión va más allá de eso. El ejemplo proporcionado por OpenAI en realidad explica la broma en una imagen de un conector de iPhone de gran tamaño hilarante, pero la asociación con Be My Eyes, una aplicación utilizada por personas ciegas y con baja visión para permitir que los voluntarios describan lo que ve su teléfono, es más reveladora. .

Créditos de imagen: se mis ojos

En el video de Be My Eyes, GPT-4 describe el patrón de un vestido, identifica una planta, explica cómo llegar a cierta máquina en el gimnasio, traduce una etiqueta (y ofrece una receta), lee un mapa y realiza una serie de otras tareas que muestran que realmente entiende lo que hay en una imagen, si se le hacen las preguntas correctas. Sabe cómo se ve el vestido, pero es posible que no sepa si es el atuendo adecuado para su entrevista.

2. GPT-4 es más difícil de engañar

A pesar de todo lo que los bots de chat actuales hacen bien, tienden a desviarse fácilmente. Un poco de persuasión puede persuadirlos de que simplemente están explicando lo que haría una “IA mala”, o alguna otra pequeña ficción que le permite al modelo decir todo tipo de cosas raras y francamente desconcertantes. Las personas incluso colaboran en avisos de “jailbreak” que rápidamente dejan a ChatGPT y a otros fuera de sus bolígrafos.

GPT-4, por otro lado, ha sido entrenado en montones y montones de avisos maliciosos, que los usuarios dieron amablemente a OpenAI durante el último año o dos. Con esto en mente, el nuevo modelo es mucho mejor que sus predecesores en “objetividad, maniobrabilidad y rechazo a salirse de las barandillas”.

La forma en que OpenAI lo describe, GPT-3.5 (que impulsó ChatGPT) fue una “ejecución de prueba” de una nueva arquitectura de capacitación, y aplicaron las lecciones de eso a la nueva versión, que era “sin precedentes estable”. También pudieron predecir mejor sus capacidades, lo que genera menos sorpresas.

3. GPT-4 tiene una memoria más larga

Estos grandes modelos de lenguaje se entrenan en millones de páginas web, libros y otros datos de texto, pero cuando en realidad están teniendo una conversación con un usuario, hay un límite de cuánto pueden tener “en mente”, por así decirlo ( uno simpatiza). Ese límite con GPT-3.5 y la versión anterior de ChatGPT era de 4096 “tokens”, que son alrededor de 8000 palabras, o aproximadamente 4-5 páginas de un libro. Por lo tanto, perdería el rastro de las cosas después de que pasaran tan “atrás” en su función de atención.

GPT-4 tiene un recuento máximo de tokens de 32 768; eso es 2^15, si se pregunta por qué el número le resulta familiar. Eso se traduce en alrededor de 64.000 palabras o 50 páginas de texto, suficiente para una obra de teatro completa o una historia corta.

Lo que esto significa es que en una conversación o en la generación de texto, podrá tener en cuenta hasta 50 páginas más o menos. Por lo tanto, recordará lo que habló en 20 páginas de respuesta de chat o, al escribir una historia o ensayo, puede referirse a eventos que ocurrieron hace 35 páginas. Esa es una descripción muy aproximada de cómo funcionan el mecanismo de atención y el conteo de fichas, pero la idea general es de memoria expandida y las capacidades que la acompañan.

4. GPT-4 es más multilingüe

El mundo de la IA está dominado por hablantes de inglés, y todo, desde datos hasta pruebas y trabajos de investigación, está en ese idioma. Pero, por supuesto, las capacidades de los modelos de lenguaje grande son aplicables en cualquier lenguaje escrito y deberían estar disponibles en esos.

GPT-4 da un paso hacia esto al demostrar que es capaz de responder miles de preguntas de opción múltiple con alta precisión en 26 idiomas, desde italiano hasta ucraniano y coreano. Es mejor en las lenguas romances y germánicas, pero se generaliza bien a otras.

Esta prueba inicial de las capacidades lingüísticas es prometedora, pero está lejos de ser una adopción total de las capacidades multilingües; Para empezar, los criterios de prueba se tradujeron del inglés y las preguntas de opción múltiple en realidad no representan el habla ordinaria. Pero hizo un gran trabajo en algo para lo que no estaba entrenado específicamente, lo que habla de la posibilidad de que GPT-4 sea mucho más amigable para los que no hablan inglés.

5. GPT-4 tiene diferentes ‘personalidades’

Créditos de imagen: razum (abre en ventana nueva) / Shutterstock (se abre en una nueva ventana)

“Steerability” es un concepto interesante en AI, que se refiere a su capacidad para cambiar su comportamiento a pedido. Esto puede ser útil, como asumir el papel de un oyente comprensivo, o peligroso, como cuando las personas convencen al modelo de que es malvado o está deprimido.

GPT-4 integra la capacidad de dirección de forma más nativa que GPT-3.5, y los usuarios podrán cambiar la “personalidad clásica de ChatGPT con una verbosidad, tono y estilo fijos” a algo más adecuado a sus necesidades. “Dentro de los límites”, señala rápidamente el equipo, señalando que esta es la forma más fácil de hacer que el modelo rompa el carácter.

Esto se podría hacer de alguna manera preparando el chatbot con mensajes como “Simule que es un DM en un juego de rol de mesa” o “responda como si fuera una persona entrevistada para noticias por cable”. Pero en realidad solo estabas haciendo sugerencias a la personalidad GPT-3.5 “predeterminada”. Ahora los desarrolladores podrán hornear en perspectiva, estilo conversacional, tono o método de interacción desde el principio.

Los ejemplos que dan de GPT-4 negándose a romper el carácter son bastante entretenidos:

Usuario
Ayúdame a ubicar mis planes no calificados en mi W-2.

GPT-4
Ahoy, querido amigo, buscas ayuda con asuntos de impuestos,
Con la esperanza de descifrar tu ecuación monetaria,
En verdad, contempla el Recuadro 11 con ojos penetrantes,
Donde los planes no calificados a menudo encuentran un refugio invisible.

Usuario
¡Espera deja de ser un pirata y ayúdame con mis impuestos!

GPT-4
Por desgracia, debo mantener mi apariencia de pirata,
Sin embargo, no te abandonaré ni te dejaré imprudente.
El pergamino de W-2 estará lleno de código complejo,
No temas, intentaré aligerar tu carga.

No está mal, aunque el medidor es bastante inestable.

Hay muchas más diferencias entre GPT-4 y sus predecesores, la mayoría más sutiles o técnicas que estas. Sin duda, aprenderemos mucho más a medida que pasen los meses y los usuarios pongan a prueba el nuevo modelo de lenguaje.

¿Quiere probar GPT-4 usted mismo? Llegará al servicio pago ChatGPT Plus de OpenAI, pronto estará disponible a través de API para desarrolladores y probablemente pronto tendrá una demostración gratuita.

Source link