Google trae nuevos modelos generativos a Vertex AI, incluyendo Imagen

A paráfrasis Andreessen Horowitz, la IA generativa, particularmente en el lado del texto al arte, se está comiendo el mundo. Al menos, los inversores así lo creen, a juzgar por los miles de millones de dólares que han invertido en nuevas empresas que desarrollan IA que crea texto e imágenes a partir de indicaciones.

Para no quedarse atrás, Big Tech está invirtiendo en sus propias soluciones de arte generativo de IA, ya sea a través de asociaciones con las nuevas empresas antes mencionadas o mediante I+D interno. (Ver: Microsoft se asocia con OpenAI para Image Creator.) Google, aprovechando su sólida rama de I+D, ha decidido ir por el último camino, comercializando su trabajo en IA generativa para competir con las plataformas que ya existen.

Hoy, en su conferencia anual de desarrolladores de E/S, Google anunció nuevos modelos de IA que se dirigen a Vertex AI, su servicio de IA totalmente administrado, que incluye un modelo de texto a imagen llamado Imagen. Imagen, que Google preestrenó a través de su aplicación AI Test Kitchen en noviembre pasado, puede generar y editar imágenes, así como escribir leyendas para las imágenes existentes.

“Cualquier desarrollador puede usar esta tecnología usando Google Cloud”, dijo a TechCrunch Nenshad Bardoliwalla, director de Vertex AI en Google Cloud, en una entrevista telefónica. “No es necesario ser científico de datos o desarrollador”.

Imagen en vértice

Comenzar con Imagen en Vertex es, de hecho, un proceso relativamente sencillo. Se puede acceder a una interfaz de usuario para el modelo desde lo que Google llama Model Garden, una selección de modelos desarrollados por Google junto con modelos de código abierto seleccionados. Dentro de la interfaz de usuario, similar a las plataformas de arte generativo como Midjourney y NightCafe, los clientes pueden ingresar indicaciones (por ejemplo, “un bolso morado”) para que Imagen genere un puñado de imágenes candidatas.

Las herramientas de edición y las indicaciones de seguimiento refinan las imágenes generadas por Imagen, por ejemplo, ajustando el color de los objetos representados en ellas. Vertex también ofrece escalado para mejorar la nitidez de las imágenes, además de un ajuste fino que permite a los clientes orientar la Imagen hacia ciertos estilos y preferencias.

Como se mencionó anteriormente, Imagen también puede generar subtítulos para imágenes, traduciendo opcionalmente esos subtítulos aprovechando Google Translate. Para cumplir con las normas de privacidad como GDPR, las imágenes generadas que no se guardan se eliminan dentro de las 24 horas, dice Bardoliwalla.

“Hacemos que sea muy fácil para las personas comenzar a trabajar con IA generativa y sus imágenes”, agregó.

Por supuesto, hay una serie de desafíos éticos y legales asociados con todas las formas de IA generativa, sin importar cuán pulida sea la IU. Los modelos de IA como Imagen “aprenden” a generar imágenes a partir de indicaciones de texto mediante el “entrenamiento” en imágenes existentes, que a menudo provienen de conjuntos de datos que se recopilaron rastreando sitios web de alojamiento de imágenes públicas. Algunos expertos sugieren que los modelos de entrenamiento que utilizan imágenes públicas, incluso las que tienen derechos de autor, estarán cubiertos por el doctrina del uso justo en los EE.UU. Pero es un asunto que es improbable para ser resuelto en cualquier momento pronto.

Modelo Imagen de Google en acción, en Vertex AI. Créditos de imagen: Google

A saber, dos compañías detrás de las populares herramientas de arte de IA, Midjourney y Stability AI, están en el punto de mira de un Caso legal que alega que infringieron los derechos de millones de artistas al entrenar sus herramientas en imágenes extraídas de la web. El proveedor de imágenes de archivo Getty Images ha llevado a Stability AI a los tribunales, por separado, por según se informa usando millones de imágenes de su sitio sin permiso para entrenar el modelo de generación de arte Stable Diffusion.

Le pregunté a Bardoliwalla si los clientes de Vertex deberían preocuparse de que Imagen pudiera haber recibido capacitación sobre materiales protegidos por derechos de autor. Comprensiblemente, podrían ser disuadidos de usarlo si ese fuera el caso.

Bardoliwalla no dijo directamente que Imagen no estaba capacitada en imágenes de marcas registradas, solo que Google lleva a cabo amplias “revisiones de gobierno de datos” para “observar los datos de origen” dentro de sus modelos para garantizar que estén “libres de reclamos de derechos de autor”. (El lenguaje cerrado no es una gran sorpresa teniendo en cuenta que el Imagen original fue entrenado en un conjunto de datos públicos, LAIONque se sabe que contiene obras protegidas por derechos de autor).

“Tenemos que asegurarnos de que estamos completamente dentro del equilibrio de respetar todas las leyes relacionadas con la información de derechos de autor”, continuó Bardoliwalla. “Somos muy claros con los clientes en cuanto a que les proporcionamos modelos en los que pueden estar seguros de que pueden usar en su trabajo, y que son dueños de la propiedad intelectual generada a partir de sus modelos entrenados de una manera completamente segura”.

Poseer la IP es otro asunto. En los EE.UU. al menos, es no está claro si el arte generado por IA tiene derechos de autor.

Una solución, no al problema de la propiedad en sí, sino a las preguntas sobre los datos de capacitación protegidos por derechos de autor, es permitir que los artistas “opten por no participar” en la capacitación de IA por completo. La startup de inteligencia artificial Spawning está tratando de establecer estándares y herramientas para toda la industria para optar por la tecnología de inteligencia artificial generativa. Adobe busca sus propios mecanismos y herramientas de exclusión voluntaria. Lo mismo ocurre con DeviantArt, que en noviembre lanzó una protección basada en etiquetas HTML para prohibir que los robots de software rastreen páginas en busca de imágenes.

Créditos de imagen: Google

Google no ofrece una opción de exclusión. (Para ser justos, tampoco lo hace uno de sus principales rivales, OpenAI.) Bardoliwalla no dijo si esto podría cambiar en el futuro, solo que Google está “excesivamente preocupado” por asegurarse de que entrena modelos de una manera que sea “ética”. y responsable.”

Eso es un poco rico, creo, viniendo de una empresa que cancelado una junta de ética de IA externa, expulsó a destacados investigadores de ética de IA y es restringiendo publicar investigaciones de IA para “competir y mantener el conocimiento en casa”. Pero interpreta las palabras de Bardoliwalla como quieras.

También le pregunté a Bardoliwalla sobre las medidas que está tomando Google, si las hubiera, para limitar la cantidad de contenido tóxico o sesgado que crea Imagen, otro problema con los sistemas de IA generativa. Recientemente, los investigadores de la startup de IA Hugging Face y la Universidad de Leipzig publicaron un herramienta demostrando que modelos como Stable Diffusion y OpenAI’s DALL-E 2 tienden a producir imágenes de personas que parecen blancas y masculinas, especialmente cuando se les pide que representen a personas en posiciones de autoridad.

Bardoliwalla preparó una respuesta más detallada para esta pregunta, afirmando que cada llamada API a los modelos generativos alojados en Vertex se evalúa en busca de “atributos de seguridad”, que incluyen toxicidad, violencia y obscenidad. Vertex califica a los modelos en estos atributos y, para ciertas categorías, bloquea la respuesta o les da a los clientes la opción de cómo proceder, dijo Bardoliwalla.

“Tenemos un muy buen sentido de nuestras propiedades de consumo del tipo de contenido que puede no ser el tipo de contenido que nuestros clientes buscan para producir estos modelos generativos de IA”, continuó. “Esta es un área de inversión significativa, así como de liderazgo de mercado para Google, para asegurarnos de que nuestros clientes puedan producir los resultados que buscan sin dañar ni dañar el valor de su marca”.

Con ese fin, Google está lanzando el aprendizaje reforzado a partir de la retroalimentación humana (RLHF) como una oferta de servicio administrado en Vertex, que afirma ayudará a las organizaciones a mantener el rendimiento del modelo a lo largo del tiempo y a implementar modelos más seguros y mediblemente más precisos en producción. RLHF, una técnica popular en el aprendizaje automático, entrena un “modelo de recompensa” directamente a partir de los comentarios humanos, como pedirles a los trabajadores contratados que califiquen las respuestas de un chatbot de IA. Luego usa este modelo de recompensa para optimizar un modelo de IA generativo similar a Imagen.

Créditos de imagen: Google

Bardoliwalla dice que la cantidad de ajustes necesarios a través de RLHF dependerá del alcance del problema que el cliente esté tratando de resolver. Existe un debate dentro de la academia sobre si RLHF es siempre el enfoque correcto: la empresa de inteligencia artificial Anthropic, por su parte, argumenta que no lo es, en parte porque RLHF puede implicar la contratación de decenas de contratistas mal pagados que son forzado para calificar el contenido extremadamente tóxico. Pero Google se siente diferente.

“Con nuestro servicio RLHF, un cliente puede elegir una modalidad y el modelo y luego calificar las respuestas que provienen del modelo”, dijo Bardoliwalla. “Una vez que envían esas respuestas al servicio de aprendizaje por refuerzo, ajusta el modelo para generar mejores respuestas que se alinean con… lo que busca una organización”.

Nuevos modelos y herramientas.

Más allá de Imagen, varios otros modelos de IA generativa ahora están disponibles para clientes selectos de Vertex, anunció Google hoy: Codey y Chirp.

Codey, la respuesta de Google a Copilot de GitHub, puede generar código en más de 20 idiomas, incluidos Go, Java, JavaScript, Python y TypeScript. Codey puede sugerir las siguientes líneas según el contexto del código ingresado en un mensaje o, como ChatGPT de OpenAI, el modelo puede responder preguntas sobre depuración, documentación y conceptos de codificación de alto nivel.

Créditos de imagen: Google

En cuanto a Chirp, es un modelo de voz entrenado en “millones” de horas de audio que admite más de 100 idiomas y se puede usar para subtitular videos, ofrecer asistencia de voz y, en general, impulsar una variedad de aplicaciones y tareas de voz.

En un anuncio relacionado en I/O, Google lanzó la API de incrustaciones para Vertex en vista previa, que puede convertir datos de texto e imágenes en representaciones llamadas vectores que mapean relaciones semánticas específicas. Google dice que se utilizará para crear funciones de búsqueda semántica y clasificación de texto, como chatbots de preguntas y respuestas, basados en los datos de una organización, el análisis de sentimientos y la detección de anomalías.

Codey, Imagen, la API de incrustaciones para imágenes y RLHF están disponibles en Vertex AI para “probadores de confianza”, dice Google. Mientras tanto, Chirp, la API de incrustaciones y Generative AI Studio, una suite para interactuar con modelos de IA e implementarlos, están disponibles en versión preliminar en Vertex para cualquier persona con una cuenta de Google Cloud.

Source link