Dentro de la IA de Instagram que llena Explore con contenido fresco y jugoso

Dentro de la IA de Instagram que llena Explore con contenido fresco y jugoso

Instagram ha publicado un artículo que describe el maquinaria tras bambalinas que llena la pestaña Explorar en Instagram con cosas nuevas e interesantes cada vez que la abres. Es un poco técnico, así que aquí hay cinco conclusiones.

Incluso Instagram y Facebook tienen recursos limitados

A diferencia del feed, que algunos aún preferirían que fuera simplemente cronológico, la pestaña Explorar debe ser impulsada algorítmicamente. Pero comprender lo que está sucediendo en una red social basada en imágenes y recomendar contenido nuevo a las personas es un problema que es tan difícil como lo creas tú.

Si estas empresas tuvieran tiempo y poder de procesamiento infinitos, probablemente abordarían la cuestión de Explorar de manera un poco diferente. Pero tal como están, necesitan atender a cientos de millones de personas con poca antelación y con recursos informáticos simplemente enormes. Creo que pusieron esto en la parte superior de la publicación para que la gente no se pregunte por qué están tomando atajos.

También es más fácil experimentar e iterar cuando puedes cambiar cosas y ver los resultados rápidamente, señalan.

Se trata de la cuenta, no de la publicación.

Se publica tanto en Instagram que sería prácticamente imposible realizar un seguimiento de cada foto individualmente, de todos modos con fines de recomendación. Es más simple y eficiente hacer un seguimiento de las cuentas, ya que las cuentas tienden a tener temas o temas, desde uno más amplio como “viajes” hasta algo muy específico, como sellos especialmente redondos.

Si bien te gusta una publicación de una cuenta no significa necesariamente que te gustará todo lo demás de esa cuenta, es un buen indicador de que al menos estás interesado en el tema de esa cuenta. Incluso si era esta publicación en particular de este gato en particular lo que querías recordar porque te recuerda a los viejos Mittens, si te gustan las imágenes de una cuenta que en su mayoría publica gatos, esa es información valiosa.

Hábitos complejos informan el algoritmo

En particular, no son solo las funciones de imagen las que usa Instagram para descubrir qué cuentas están vinculadas por temas, aunque, por supuesto, ese tipo de cosas también se pueden detectar. También utilizan su comportamiento.

Por ejemplo, cuando te gustan varias publicaciones seguidas, es más probable que estén vinculadas de alguna manera, incluso si los algoritmos de Instagram no pueden verlo:

Si un individuo interactúa con una secuencia de cuentas en la misma sesión, es más probable que sea temáticamente coherente en comparación con una secuencia aleatoria de cuentas de la diversa gama de cuentas de Instagram. Esto nos ayuda a identificar cuentas temáticamente similares.

La gente tiende a mirar las cosas de esa manera, pasando de una cuenta centrada en viajes a la siguiente, o centrándose en los animales porque necesitan un estímulo. Toda esa información es absorbida por el algoritmo e inspeccionada para determinar su relevancia. Por supuesto, las acciones deliberadas como “ver menos publicaciones como esta” y el bloqueo de cuentas también tienen mucho peso.

De “cuentas semilla” a un top 25

El proceso de pasar de un par de miles de millones de publicaciones a solo dos docenas puede ser bastante difícil, pero puede reducir el problema a un tamaño manejable al limitar la pestaña Explorar a las cuentas vinculadas de alguna manera a las cuentas a las que el usuario ya le ha gustado o de las que guardó publicaciones. . Estas se denominan “cuentas iniciales” porque todo lo demás en el proceso realmente surge de ellas.

Debido a la forma en que el sistema de aprendizaje automático representa las cuentas y sus temas dentro de sí mismo, es muy fácil encontrar un par de cientos de cuentas similares.

Imagínese si sabe que a alguien le gusta una canica de color naranja rojizo en particular y necesita encontrar más como esa. Si solo sumerges tu mano en un saco de canicas, es poco probable que encuentres una rápidamente. Incluso si los viertes en el piso, tendrás que buscar un poco. Pero si ya los ha organizado por color, todo lo que tiene que hacer es llegar a la vecindad general de la canica que les gusta y está casi garantizado que elegirá un ganador.

El modelo de aprendizaje automático hace eso al dar a todas estas cuentas una especie de ubicación en un espacio virtual, y cuanto más cerca están dos en ese espacio, más cerca están tópicamente.

Entonces, la parte realmente difícil de reducir un conjunto de miles de millones a un conjunto de cientos ya se logra básicamente por la forma en que se clasifican las cuentas.

A partir de ahí Instagram hace tres pasadas con redes neuronales de complejidad creciente.

Primero, algo confuso, es una versión combinada más simple de los dos procesos siguientes, que lo lleva de 500 a 150 cuentas. Esto es un poco extraño, pero piénselo de esta manera: esta red neuronal ha visto los pasos 2 y 3 suceder muchas veces y tiene una idea bastante clara de lo que hacen. Algo así como si hubieras visto hacer galletas tantas veces que pudieras adivinar una receta. Probablemente te acercarías, pero tampoco querrías publicarlo a cien millones de personas. Entonces, este paso solo hace las cosas obvias correctamente.

Segundo es una red neuronal computacionalmente barata que utiliza muchas más señales que la simple similitud tópica mencionada anteriormente. Aquí es donde entran en juego sus gustos individuales, así como los datos más profundos sobre las cuentas. Te gusta viajar, claro, pero en particular te gustan las parejas que viajan, ambas cosas con las que el algoritmo de clasificación de canicas anterior puede ayudar. Otros parámetros, como la popularidad general de una publicación, o que en realidad sea diferente de las otras publicaciones en la mezcla, también se incluyen. Eso quita otros 100 de la parte superior, dejando 50.

Tercera es una versión computacionalmente costosa de la anterior, que hace otra pasada en esos 50 y los reduce a la mitad, básicamente mirando más de cerca y tomándose el tiempo para incluir, quizás, mil puntos de datos cada uno en lugar de cien.

Supongo que eso fue un poco largo para una “comida para llevar”. No te preocupes, el siguiente es rápido.

Y claro, no 🍑

“Queremos asegurarnos de que el contenido que recomendamos sea seguro y apropiado para una comunidad global de muchas edades en Explore”, escriben. “Usando una variedad de señales, filtramos el contenido que podemos identificar como no apto para ser recomendado”.

Así que ahora sabe por qué no obtiene nada de eso en Explorar.


Source link