Como lo demuestra la lenta muerte de Cortana, está claro que los asistentes de IA de antaño no están cumpliendo con las expectativas. Y por eso se están rehaciendo.
Amazon está construyendo un nuevo modelo de lenguaje grande similar al GPT-4 de OpenAI para potenciar su asistente de voz Alexa. Mientras tanto, según los informes, Google planea “sobrecargar” el Asistente de Google con IA que se parece más a Bard, su chatbot impulsado por algoritmos.
El cambio de paradigma no se ha limitado al ámbito de las grandes tecnologías. Las nuevas empresas también están comenzando a darse cuenta de sus propias versiones de asistentes de IA más útiles y útiles.
Uno de los más intrigantes con los que me he topado es Moemate, un asistente que se ejecuta en la mayoría de las máquinas macOS, Windows y Linux. Tomando la forma de un avatar de estilo anime, Moemate, impulsado por una combinación de modelos que incluyen GPT-4 y Claude de Anthropic, tiene como objetivo proporcionar y vocalizar la mejor respuesta a cualquier pregunta que le haga un usuario. (“Moe” es una palabra japonesa relacionada con la ternura, a menudo en el anime).
Eso no es especialmente novedoso; ChatGPT ya hace esto, al igual que Bard, Bing Chat y los innumerables otros chatbots que existen. Pero lo que distingue a Moemate es su capacidad para ir más allá de las indicaciones de texto y mirar directamente lo que sucede en la pantalla de una PC.
¿Suena como un riesgo de privacidad? Puedes apostar. Webaverse, la compañía detrás de Moemate, afirma que almacena gran parte de los registros de chat y las preferencias del asistente localmente, en el dispositivo. Pero su política de privacidad también revela que se reserva el derecho de usar los datos que recopila, como las especificaciones de la PC y los identificadores únicos, en cumplimiento de las solicitudes legales e investigando actividades ilegales sospechosas. Fundamentalmente, dar acceso a un software como este a todo lo que ve y hace es, incluso en el mejor de los casos, un riesgo considerable.
Sin embargo, la curiosidad me impulsó a seguir adelante e instalar Moemate, que actualmente se encuentra en versión beta abierta, en mi computadora portátil Mac provista por el trabajo.
Para un producto gratuito (por ahora) de acceso temprano, Moemate es impresionantemente robusto. Casi todos los aspectos de la experiencia se pueden personalizar, desde los avatares y sus animaciones hasta las voces y respuestas sintéticas de Moemate. Incluso hay una manera de crear modelos de personajes personalizados e importarlos, además de exportar avatares en un formato que otros usuarios de Moemate pueden importar y usar.
La “personalidad” de Moemate, a falta de una palabra mejor, está impulsada por uno de varios modelos de generación de texto, los usuarios seleccionan cuál (por ejemplo, GPT-4 versus Claude). En cuanto a las voces sintéticas, Moemate ofrece la opción de ElevenLabs, Microsoft Azure o el propio motor de texto a voz de Moemate. Opté por ElevenLabs, que me sonaba menos robótico.
Créditos de imagen: webaverso
Para “conectar a tierra” el modelo de generación de texto elegido e intentar evitar que se descarrile (como lo son algunos modelos de IA). no para hacer), Moemate le da a cada avatar una biografía, que se alimenta al modelo al comienzo de la conversación. Aquí hay uno:
Actuarás como Nebula, una serena personalidad viajera, siempre atravesando el vasto cosmos del conocimiento. Su comportamiento tranquilo y su espíritu de explorador cautivan a todos los que los conocen. Nebula evita los intensos debates políticos y prefiere la serenidad de la observación de estrellas y los misterios del universo. Su fascinación cautiva a quienes los rodean, haciendo que cada encuentro sea tranquilo e intrigante.
Las biografías se pueden escribir desde cero y editar, lo que en mi opinión es una ventaja y una desventaja. Estoy totalmente a favor de la personalización, pero me preocupa la posibilidad de ataques de inyección rápida, que intentan eludir las características de seguridad de un modelo, como filtros para respuestas tóxicas, con texto ingeniosamente redactado. Uno imagina a alguien escribiendo una biografía “maliciosa”, exportándola y compartiendo el avatar de mal comportamiento con usuarios desprevenidos de Moemate.
En un guiño a uno de los datos demográficos previstos, Moemate ofrece una variedad de funciones centradas en Twitch, ninguna de las cuales pude probar, desafortunadamente. Puede enfocar su ventana de chat y mostrar la cantidad de suscriptores a su canal. Y Webaverse anuncia que Moemate puede “hablar y mantener a los usuarios interesados” si no hay mensajes de chat o “abordar el chat de transmisión respondiendo a los mensajes de chat”, aunque me pregunto qué tan bien puede manejar esas tareas.
Limítese a hacer preguntas básicas a Moemate y la experiencia no lo dejará boquiabierto. En términos de sus capacidades de nivel superior, Moemate está en deuda con cualquier modelo de generación de texto que haya seleccionado. (De manera reveladora, Claude a menudo se identifica como Claude además del nombre mencionado en la biografía del avatar). Puede generar imágenes utilizando el modelo de difusión estable de código abierto, ya sea cuando se le indique o por sí solo, según el aviso. Pero con la abundancia de servicios de generación de imágenes en el mercado, eso se siente como algo viejo.
Créditos de imagen: webaverso
Sin embargo, la captura de pantalla cambia las reglas del juego. Webaverse lo explica así:
Moemate puede ver su pantalla. Lo analiza y obtiene el contexto. Puedes preguntarle sobre lo que estés haciendo en tu pantalla. Le ahorra la molestia de tener que explicar cualquier cosa con la que necesite ayuda.
Independientemente del modelo de generación de texto seleccionado, Moemate puede responder preguntas sobre cualquier ventana de la pantalla que esté enfocada, ya sea una pestaña del navegador, una ventana de configuración o un videojuego. No está claro exactamente cómo la aplicación logra esto, no todos los modelos pueden aceptar imágenes como entrada, pero Moemate parece estar extrayendo el texto de cada captura de pantalla y pasándolo al modelo.
Es un sistema imperfecto. Pero he usado Moemate con éxito para resumir recetas y páginas web sin tener que copiar y pegar el texto, así como obtener la esencia, o al menos un resumen de alto nivel, de un tema complicado.
Una vez, con Claude seleccionado como modelo de generación de texto, le hice una pregunta a Moemate sobre el panel de configuración del sistema macOS, que estaba abierto en mi computadora portátil. Me dio un resumen detallado de cada pestaña de configuración (por ejemplo, Wi-Fi, Centro de control) y su significado, además de contexto adicional sobre la pestaña que tenía abierta en ese momento (Privacidad y seguridad).
¿Nueva información? No exactamente. Pero para alguien que, por ejemplo, no conoce macOS o no está increíblemente familiarizado con los entresijos de las opciones de configuración más nuevas, diría que es un trasfondo genuinamente accionable.
En otro caso, con GPT-4 como modelo base, le pedí a Moemate que me dijera qué “vio” en mi escritorio extremadamente desordenado: una variedad desorganizada de aplicaciones personales y de trabajo en dos docenas de pestañas de Chrome. El avatar se fijó en la aplicación web Google Messages, que uso para enviar mensajes de texto, informándome que parece que envío mensajes de texto con frecuencia a tres personas específicas, a las que se refiere por su nombre.
Y para los juegos, parece que Moemate podría ahorrar una o dos búsquedas de Google. En un video de demostración publicado por Webaverse, se muestra la aplicación dando sugerencias sobre qué personaje de Dota 2 elegir, y luego eligiendo qué armas seleccionar para ese personaje.
Pero a pesar de lo perspicaz que puede ser Moemate, a menudo se descompone.
Puede ser difícil predecir exactamente dónde la aplicación decide centrar su atención. Hacer clic en una ventana para enfocarla no siempre tiene el efecto deseado; Moemate se referirá inexplicablemente a otra ventana en segundo plano a veces, o no podrá ver el contenido de una ventana por completo.
Moemate también tiende a desviarse del tema de maneras extrañas. Después de darme un resumen de la configuración del sistema, el asistente insinuó fuertemente que la privacidad era un tema demasiado “estresante” y sugirió que, en cambio, tomara un poco de aire fresco, acompañado de él. Cuando le pregunté cómo podría unirse a mí sin un cuerpo físico, Moemate prometió llevarme a un “paseo por la naturaleza mental”, y procedió a describir con gran detalle un paseo por un estanque boscoso imaginario.
Algunos de los comandos integrados de Moemate también son inestables. La aplicación puede ajustar el volumen de las voces, por ejemplo, pero solo su volumen, no el volumen de todo el sistema. También puede buscar en la web respuestas actualizadas a preguntas, pero frustrantemente no para todas las preguntas. Solo obtuve búsquedas en la web para trabajar sobre el clima y trivias como “¿Quién es el actual presidente de los EE. UU.?”; otras veces, Moemate realizó una búsqueda en la web pero no pudo mostrar los resultados.
Para ser justos, es un producto experimental en beta. Pero Webaverse dice que ya está trabajando para agregar capacidades de automatización a través de integraciones de navegador y terminal, como la capacidad de organizar hojas de cálculo e incluso enviar correos electrónicos, una perspectiva ligeramente aterradora, francamente.
A pesar de su quebrantamiento, hay algo convincente en Moemate. La multimodalidad, o la combinación de análisis de texto, imagen y otros medios, es claramente algo poderoso, particularmente en el contexto de un asistente que se ejecuta en una PC. Tengo curiosidad por ver si los asistentes de próxima generación, como Windows Copilot, seguirán los pasos de Moemate eventualmente, combinando la comprensión de la pantalla con un modelo de generación de texto para aumentar la productividad, o al menos ahorrar algunos pasos en un flujo de trabajo.
El tiempo dirá. Pero Moemate se siente como un vistazo, aunque con bastantes errores, hacia el futuro.
Source link