Meta lanza Sphere, una herramienta de conocimiento de IA basada en contenido web abierto, utilizada inicialmente para verificar citas en Wikipedia

Facebook puede ser famoso por ayudar a marcar el comienzo de la era de las “noticias falsas”; pero también ha tratado de encontrar un lugar para sí mismo en el seguimiento: la batalla interminable para combatirlo. En el último desarrollo en ese frente, la matriz de Facebook, Meta, anunció hoy una nueva herramienta llamada Sphere, AI construida alrededor del concepto de aprovechar el vasto depósito de información en la web abierta para proporcionar una base de conocimiento para que AI y otros sistemas funcionen. El primer usuario de Sphere, dice Meta, es Wikipedia, que lo utiliza para escanear automáticamente las entradas e identificar cuándo las citas en sus entradas tienen un apoyo fuerte o débil.

El equipo de investigación tiene Esfera de código abierto — que actualmente se basa en 134 millones de páginas web públicas.

Así es como funciona en acción:

La idea detrás del uso de Sphere para Wikipedia es sencilla: la enciclopedia en línea tiene 6,5 millones de entradas y, en promedio, ve algunos 17,000 artículos agregados cada mes. El concepto de wiki detrás de eso significa que la adición y edición de contenido es colaborativa, y aunque hay un equipo de editores encargados de supervisar eso, es una tarea abrumadora que crece día a día, no solo por ese tamaño sino por su mandato. teniendo en cuenta cuántas personas, educadores y otros confían en él como depósito de registros.

Al mismo tiempo, la Fundación Wikimedia, que supervisa Wikipedia, ha estado sopesando nuevas formas de aprovechar todos esos datos. El mes pasado, anunció un nivel empresarial y sus dos primeros clientes comerciales, Google e Internet Archive, que utilizan datos basados en Wikipedia para sus propios intereses de generación de negocios y ahora tendrán acuerdos de servicio más amplios y formales en torno a eso.

Por parte de Meta, la empresa sigue agobiada por una mala percepción pública, derivada en parte de las acusaciones de que permite que la desinformación y las ideas tóxicas ganen terreno libremente, o si eres alguien que ha terminado en la “cárcel de Facebook”, creyendo que has compartido algo que crees que está bien, pero aún así te has enfrentado a una policía social demasiado entusiasta. Sin duda, es un desastre, pero en ese sentido, lanzar algo como Sphere se siente un poco como un ejercicio de relaciones públicas para Meta, tanto como una herramienta potencialmente útil: si funciona, muestra que hay personas en la organización que intentan trabajar de buena fe. .

Para ser claros, los anuncios de hoy sobre Meta trabajando con Wikipedia no hacen referencia a Wikimedia Enterprise, pero generalmente agregan más herramientas para Wikipedia para asegurarse de que el contenido que tiene sea verificado y preciso será algo que los clientes potenciales del servicio Enterprise querrán. saber al considerar pagar por el servicio.

Tampoco está claro si este acuerdo convierte a Wikipedia en un cliente de pago de Meta, o viceversa; por ejemplo, Meta se convierte en un cliente empresarial para tener más acceso a los datos para trabajar en Sphere. Meta señala que para entrenar el modelo Sphere, creó “un nuevo conjunto de datos (WAFER) de 4 millones de citas de Wikipedia, significativamente más complejo que nunca antes utilizado para este tipo de investigación”. Y hace apenas cinco díasMeta anunció que los editores de Wikipedia también estaban usando una nueva herramienta de traducción de idiomas basada en inteligencia artificial que había creado, por lo que claramente existe una relación allí.

Hemos preguntado y actualizaremos esta publicación a medida que sepamos más.

Por ahora, algunos detalles más sobre Sphere y cómo Wikipedia lo está usando, y lo que podría venir a continuación:

— Meta cree que la base de conocimientos de “caja blanca” que representa Esfera tiene una cantidad significativamente mayor de datos (y, por implicación, más fuentes que comparar para la verificación) que las típicas fuentes de conocimiento de “caja negra” que se basan en hallazgos de, por ejemplo, motores de búsqueda propietarios. “Debido a que Sphere puede acceder a mucha más información pública que los modelos estándar actuales, podría proporcionar información útil que ellos no pueden”, señaló en una publicación de blog. Los 134 millones de documentos que Meta ha utilizado para reunir y entrenar a Sphere se dividieron en 906 millones de pasajes de 100 tokens cada uno.

— Al abrir esta herramienta, el argumento de Meta es que es una base más sólida para los modelos de entrenamiento de IA y otros trabajos que cualquier base propietaria. De todos modos, admite que los cimientos mismos del conocimiento son potencialmente inestables, especialmente en estos primeros días. ¿Qué pasa si una “verdad” simplemente no se informa tan ampliamente como la información errónea? Ahí es donde Meta quiere enfocar sus esfuerzos futuros en Esfera. “Nuestro próximo paso es entrenar modelos para evaluar la calidad de los documentos recuperados, detectar posibles contradicciones, priorizar fuentes más confiables y, si no existe evidencia convincente, reconocer que ellos, como nosotros, aún pueden estar perplejos”, señaló.

— En ese sentido, esto plantea algunas preguntas interesantes sobre en qué se basará la jerarquía de la verdad de Sphere en comparación con las de otras bases de conocimiento. La idea parece ser que debido a que es de código abierto, los usuarios pueden tener la capacidad de modificar esos algoritmos de manera que se adapten mejor a sus propias necesidades. (Por ejemplo, una base de conocimientos legales puede otorgar más credibilidad a las presentaciones judiciales y las bases de datos de jurisprudencia que una base de conocimientos sobre moda o deportes).

— Hemos preguntado, pero aún no hemos recibido una respuesta, sobre si Meta está usando Sphere o una versión de este en sus propias plataformas como Facebook e Instagram, Messenger, que han lidiado durante mucho tiempo con la desinformación y la toxicidad de los malos actores. (También hemos preguntado si hay otros clientes en línea para Sphere).

— Podría decirse que el tamaño actual de Wikipedia ha excedido lo que cualquier equipo de humanos de cualquier tamaño podría verificar por sí solo, por lo que la idea aquí es que Sphere se usa para escanear automáticamente cientos de miles de citas simultáneamente para detectar cuándo una cita no tiene mucho soporte en la web más amplia: “Si una cita parece irrelevante, nuestro modelo sugerirá una fuente más aplicable, incluso señalando el pasaje específico que respalda el reclamo”, señaló. Parece que los editores podrían estar seleccionando los pasajes que podrían necesitar verificación por ahora. “Eventualmente, nuestro objetivo es construir una plataforma para ayudar a los editores de Wikipedia a detectar sistemáticamente problemas de citas y corregir rápidamente la cita o corregir el contenido del artículo correspondiente a escala”.

Source link