El aprendizaje automático de Facebook tiene como objetivo modificar caras, manos y … atuendos

El aprendizaje automático de Facebook tiene como objetivo modificar caras, manos y … atuendos

La última investigación de Facebook establece modelos de aprendizaje automático para tareas que, para nosotros, parecen bastante comunes, pero que para una computadora siguen siendo monstruosamente difíciles. Estos proyectos tienen como objetivo anonimizar rostros, improvisar movimientos de manos y, quizás lo más difícil de todo, dar consejos de moda creíbles.

La investigación aquí fue presentada recientemente en la Congreso Internacional de Visión por Computadorentre unas pocas decenas otros papeles de la empresa, que ha invertido mucho en investigación de IA, en particular en visión artificial.

La modificación de caras en movimiento es algo que todos hemos llegado a asociar con “deepfakes” y otras aplicaciones nefastas. Pero el equipo de Facebook sintió que en realidad había una aplicación potencialmente humanitaria de la tecnología.

Deepfakes utiliza una comprensión cuidadosamente cultivada de las características y puntos de referencia de la cara para mapear las expresiones y movimientos de una persona en una cara completamente diferente. El equipo de Facebook usó las mismas características y puntos de referencia, pero en su lugar los usa para modificar la cara lo suficiente como para que sea ya no es reconocible para los motores de reconocimiento facial.

Esto podría permitir que alguien que, por el motivo que sea, quiera aparecer en un video pero no ser reconocido públicamente, hacerlo sin algo tan tosco como una máscara o una cara completamente fabricada. En cambio, se verían un poco como ellos mismos, pero con los ojos un poco más separados, una boca más delgada, una frente más alta, etc.

El sistema que crearon parece funcionar bien, pero, por supuesto, requeriría alguna optimización antes de que pueda implementarse como un producto. Pero uno puede imaginar cuán útil podría ser tal cosa, ya sea para aquellos que corren el riesgo de represalias por parte de los opresores políticos o para las preferencias de privacidad más variadas.

En espacios virtuales puede ser difícil reconocer a alguien, en parte debido a la falta de señales no verbales que percibimos constantemente en la vida real. Esta siguiente pieza de investigación intentos de capturar, catalogar y reproducir estos movimientoso al menos las que hacemos con nuestras manos.

Es un poco divertido pensar en ello, pero en realidad no hay muchos datos sobre cómo mueven las manos exactamente las personas cuando hablan. Entonces, los investigadores grabaron 50 horas completas de parejas de personas que tenían conversaciones ordinarias, o tan ordinarias como podían mientras vestían un equipo de captura de movimiento de alta gama.

Estas conversaciones (relativamente) naturales, y los movimientos del cuerpo y las manos que las acompañaban, fueron ingeridos por el modelo de aprendizaje automático; aprendió a asociar, por ejemplo, que cuando las personas decían “en ese entonces” señalaban detrás de ellos, o cuando decían “por todos lados”, hacían un gesto de barrido.

¿Para qué se puede usar esto? Conversaciones de apariencia más natural en entornos virtuales, tal vez, pero tal vez también por parte de animadores a quienes les gustaría basar los movimientos de sus personajes en la vida real sin hacer capturas de movimiento por su cuenta. Resulta que la base de datos que creó Facebook es realmente como ninguna otra en escala o detalle, lo cual es valioso en sí mismo.

Similarmente único, pero posiblemente más frívolo, es este sistema destinado a ayudarlo a mejorar su atuendo. Si vamos a tener espejos inteligentes, deberían poder hacer sugerencias, ¿no?

Moda++ es un sistema que, habiendo ingerido una gran biblioteca de imágenes etiquetadas con las piezas usadas (por ejemplo, sombrero, bufanda, falda) y la moda general (obviamente una medida subjetiva), puede mirar un atuendo determinado y sugerir cambios. Nada importante, no es tan sofisticado, sino cosas pequeñas como quitarse una capa o meterse una camisa.

Está lejos de ser un asistente de moda digital, pero el documento documenta el éxito inicial al hacer sugerencias de atuendos que las personas reales encontraron creíbles y tal vez incluso una buena idea. Eso es bastante impresionante, dado lo complejo que resulta ser este problema cuando realmente lo consideras, y lo mal definido que está realmente “de moda”.

La investigación ICCV de Facebook muestra que la compañía y sus investigadores están analizando de manera bastante amplia la cuestión de qué puede lograr la visión por computadora. Siempre es bueno detectar rostros en una foto más rápido o con mayor precisión, o inferir la ubicación de los objetos en una habitación, pero claramente hay muchos aspectos más oscuros o sorprendentes de la vida digital que podrían mejorarse con un poco de inteligencia visual. Puedes consultar el resto de artículos aquí.


Source link