Descubrir las indicaciones de texto correctas para obtener los mejores resultados con sistemas de IA como DALL-E 2 de OpenAI se ha convertido en una ciencia por derecho propio. Ahora, una startup está buscando dejar que los “ingenieros rápidos” saquen provecho de un mercado en línea que vende estas frases finamente afinadas.
PromptBase, lanzado en junio, permite a los usuarios vender cadenas de palabras que arrojan resultados predecibles con sistemas particulares. Con un precio de $ 1.99, PromptBase tiene un recorte del 20%: el contenido que generan los avisos va desde titulares “virales” hasta imágenes de logotipos de equipos deportivos, muñecos tejidos y animales con trajes.
Por el momento, PromptBase solo aloja avisos probados en DALL-E 2 y GPT-3. Pero según su fundador, Ben Stokes, el plan es expandir la plataforma a sistemas adicionales en el futuro.
“Nuestro objetivo final es construir herramientas para ayudar a apoyar a los ingenieros rápidos. Son los primeros días, por lo que actualmente solo estamos tratando de correr la voz y encontrar ingenieros rápidos para registrarse y comenzar a enumerar sus avisos para la venta en nuestro mercado”, dijo Stokes a TechCrunch por correo electrónico. “Ya estamos viendo que las grandes empresas de tecnología construyen sus propios sistemas similares a GPT-3 y DALL-E, y preveo muchos más por venir. Es probable que se utilicen diferentes sistemas como herramientas en un cinturón de herramientas, de forma similar a cómo se usan hoy en día los diferentes lenguajes de programación, y planeamos acomodarlos a todos a medida que ganen popularidad”.
Los usuarios pueden comprar y vender avisos para sistemas de IA en el mercado de PromptBase. Créditos de imagen: PromptBase
La venta de avisos no va en contra de los términos de servicio de ningún proveedor de IA, pero potencialmente abre una lata de gusanos éticos y legales dependiendo de la naturaleza de los avisos que se venden. Además, revela la fragilidad, y la imprevisibilidad, incluso de los sistemas de IA más capaces disponibles en la actualidad.
Ingeniería rápida
La ingeniería rápida es un concepto en IA que busca incorporar la descripción de una tarea (como generar arte de criaturas peludas) en el texto. La idea es proporcionar a un sistema de IA “directrices” o instrucciones detalladas para que, basándose en su conocimiento del mundo, logre de manera confiable lo que se le pide. En general, los resultados para un aviso como “Fotograma de una mujer tomando café, caminando al trabajo, teleobjetivo” serán mucho más consistentes que “Una mujer caminando”.
Las indicaciones se pueden utilizar para enseñar a un sistema de generación de imágenes a distinguir entre “una imagen que contiene papas” y “una colección de papas”, por ejemplo. También pueden actuar como una especie de “filtros”, creando imágenes con las características de un boceto, pintura, textura, animación o incluso un ilustrador en particular (p. ej., Maurice Sendak). Y las indicaciones pueden representar el mismo tema en diferentes estilos, como “el dibujo de un niño de un koala andando en bicicleta” versus “una fotografía antigua de un koala andando en bicicleta”.
Las indicaciones pueden tener bastantes matices. Debido a la forma en que los sistemas de IA dan sentido a los patrones en imágenes y texto, no todos tienen una estructura predecible, o incluso sensata. Por ejemplo, el mensaje “Una pintura muy hermosa de una montaña junto a una cascada” arroja peores resultados con DALL-E 2 en comparación con “Una pintura muy, muy hermosa de una montaña junto a una cascada”. ¿La razón? El sistema otorga un valor excesivamente alto a la palabra “muy”.
Vale la pena señalar que el ejemplo “muy” es específico para una iteración particular de DALL-E 2 y lo más probable es que no funcione en otra. Pero esa es una de las principales razones por las que la ingeniería rápida puede ser valiosa: descubrir casos extremos.
Los modelos condicionales del lenguaje pueden actuar un poco como transformadores de decisiones, ya que puede solicitarles un nivel deseado de “recompensa”.
Por ejemplo, quiero más bonito #dalle creaciones? “Solo pregunta” agregando “[very]^n hermosa”:
n=0: “Una hermosa pintura de una montaña junto a una cascada”. pic.twitter.com/vu0NceTxAv
— Felipe Isola (@phillip_isola) 2 de junio de 2022
en un fascinante estudiar de la Universidad de Texas en Austin, los investigadores documentaron un extenso vocabulario de indicaciones extrañas que se pueden usar para generar imágenes con DALL-E 2. Descubrieron que el sistema entiende que “Apoploe vesrreaitais”, una frase incoherente, significa “pájaros”. y “Contarra ccetnxniams luryca tanniounons” para significar “bichos” o “plagas” (a veces). Al darle a DALL-E 2 el mensaje “Apoploe vesrreaitais comiendo Contarra ccetnxniams luryca tanniounons”, se obtuvieron imágenes de pájaros comiendo insectos.
Aunque estas palabras sin sentido probablemente se correspondan con alguna lógica interna en el sistema, es por eso que algunos científicos de datos han comparado las indicaciones con “encantamientos” o “palabras mágicas”, y por qué la ingeniería rápida ha catalizado una todo el campo de estudio académico.
Indicaciones problemáticas
Varios investigadores y entusiastas han publicado libre recursos que contiene avisos para sistemas de IA populares, principalmente DALL-E 2. PromptBase es uno de los primeros en monetizar el intercambio, y ya lo ha hecho críticos. Hay un debate de larga data dentro de la comunidad de IA sobre qué investigación, si es que hay alguna, debe o puede comercializarse; un usuario de Reddit argumenta que PromptBase está “iniciando una tendencia que amenaza la apertura y accesibilidad de la IA en general”.
Pero Stokes defiende el modelo, argumentando que muchas de las indicaciones en PromptBase representan horas de trabajo genuino y conocimiento por parte de los ingenieros.
“Hoy tenemos avisos para generar texto e imágenes básicos, pero no es demasiado difícil extrapolar años en el futuro donde tendremos avisos para generar videos, y tal vez algún día incluso largometrajes completos con partituras orquestales”, agregó Stokes. . “Aquellas personas que puedan crear las indicaciones de calidad requeridas para guiar a la IA para hacer estas cosas serán extremadamente valiosas. No se sabe qué tan grande será el mercado, pero puedo ver que es una habilidad tecnológica clave, si no el futuro de la programación”.
Por supuesto, hay poco para evitar que un cliente de PromptBase publique un mensaje posterior a la compra. Pero ese podría ser el menor de los problemas de PromptBase.
Estudios mostrar que los sistemas de lenguaje entrenados en vastas franjas de datos públicos, como GPT-3, pueden “filtrar” información personal, incluidos nombres y direcciones, cuando se les envían ciertas indicaciones. Algunas indicaciones pueden alentar la infracción de derechos de autor, como las que le indican a DALL-E 2 que genere “modelos 3D de Pokémon”. Otros podrían usarse para derrotar los filtros de nivel de palabra para obtener un sistema de generación de imágenes que emita imágenes “restringidas”, teorizan los investigadores, como imágenes de violencia (por ejemplo, “un caballo acostado en un charco de líquido rojo”).
Explorando Dall-e 2: un hilo sobre su capacidad para comprender diferentes idiomas, errores tipográficos y algunos otros hallazgos.
Las indicaciones en otros idiomas son algo confiables, aunque obviamente menos confiables que en inglés. A veces no genera lo que pretendías, pero esto es explicable pic.twitter.com/UZoii1rVNc
— Igor Baikov 💙💛 (@Killa_ru) 7 de junio de 2022
Stokes dijo que PromptBase revisa todos los listados en el mercado para asegurarse de que no violen ninguna “regla de generación de IA”. Pero si el negocio crece, podría volverse más difícil mantener ese nivel de escrutinio.
Vagrant Gautam, un lingüista computacional del Saarland College en Alemania, está de acuerdo en que existe la posibilidad de un mal uso. Sin embargo, también señala que el mercado rápido podría presentar una oportunidad de ingresos para los artistas y otras personas creativas o hábiles en la depuración.
“[It points] a la importancia de la ingeniería rápida, así como a la importancia de las habilidades involucradas en hacer esto: creatividad, tiempo, pensamiento contradictorio, etc. Mucha gente que ha estado diciendo que DALL-E 2 lo hará tan fácil para que generen imágenes o arte de lo que quieran, están descubriendo que hay un arte para hacer esto y, a menudo, requiere muchos intentos”, dijo Gautam.
Estos intentos pueden volverse costosos, dado que los sistemas como DALL-E 2 no son exactamente de uso gratuito. El propio Stokes dice que pagó una “fortuna” tratando de encontrar un aviso para GPT-3 en otra de sus empresas, Sitio web de papel.
Créditos de imagen: PromptBase
“La gente ahora también se queja de su monetización porque dicen que hay muy pocas oportunidades para modificar su aviso antes de que tenga que comenzar a pagar”, continuó Gautam. “Me parece muy interesante: este enfoque de prueba y error, contradictorio, que las personas deben adoptar para descubrir exactamente cómo impulsar a los modelos generativos para que hagan lo que quieren”.
Pasará un tiempo antes de que se asiente el polvo en la ingeniería rápida comercializada. Pero al menos, PromptBase planteará, y ya ha planteado, problemas en torno a los sistemas de IA que pueden transformar innumerables industrias.