El aprendizaje por refuerzo profundo transformará la fabricación tal como la conocemos

Colaborador de Chris Nicholson

Más publicaciones de este colaborador El aprendizaje por refuerzo profundo transformará la fabricación como la conocemos ACTUALIZADO: El aprendizaje automático puede arreglar Twitter, Facebook y tal vez incluso Estados Unidos

Si caminas por la calle gritando los nombres de cada objeto que ves, ¡camión de basura! ¡ciclista! ¡sicómoro! – la mayoría de la gente no concluiría que eres inteligente. Pero si atraviesas una carrera de obstáculos y les muestras cómo navegar una serie de desafíos para llegar ilesos al final, lo harían.

La mayoría de los algoritmos de aprendizaje automático están gritando nombres en la calle. Realizan tareas perceptivas que una persona puede hacer en menos de un segundo. Pero otro tipo de IA, el aprendizaje por refuerzo profundo, es estratégico. Aprende a realizar una serie de acciones para alcanzar una meta. Eso es poderoso e inteligente, y va a cambiar muchas industrias.

Dos industrias en la cúspide de las transformaciones de la IA son la fabricación y la cadena de suministro. Las formas en que fabricamos y enviamos cosas dependen en gran medida de que grupos de máquinas trabajen juntas, y la eficiencia y resistencia de esas máquinas son la base de nuestra economía y sociedad. Sin ellos, no podemos comprar lo básico que necesitamos para vivir y trabajar.

Startups como Covariante, Vástago de Ocado y Máquinas brillantes están utilizando el aprendizaje automático y el aprendizaje por refuerzo para cambiar la forma en que se controlan las máquinas en las fábricas y almacenes, resolviendo desafíos extraordinariamente difíciles, como hacer que los robots detecten y recojan objetos de varios tamaños y formas de los contenedores, entre otros. Están atacando mercados enormes: el mercado del control industrial y la automatización valió la pena $ 152 mil millones el año pasado, mientras que la automatización logística se valoró en más de $ 50 mil millones.

El aprendizaje por refuerzo profundo produce constantemente resultados que otras herramientas de optimización y aprendizaje automático son incapaces de lograr.

Como tecnólogo, necesita muchas cosas para que el aprendizaje por refuerzo profundo funcione. La primera pieza en la que pensar es cómo conseguirás que tu agente de aprendizaje por refuerzo profundo practique las habilidades que quieres que adquiera. Solo hay dos formas: con datos reales o mediante simulaciones. Cada enfoque tiene su propio desafío: los datos deben recopilarse y limpiarse, mientras que las simulaciones deben construirse y validarse.

Algunos ejemplos ilustrarán lo que esto significa. En 2016, GoogleX anunció sus “granjas de brazos” robóticos, espacios llenos de brazos robóticos que estaban aprendiendo a agarrar elementos y enseñar a otros cómo hacer lo mismo, que fue una de las primeras formas en que un algoritmo de aprendizaje por refuerzo practicaba sus movimientos en un entorno real. y medir el éxito de sus acciones. Ese circuito de retroalimentación es necesario para que un algoritmo orientado a objetivos aprenda: debe tomar decisiones secuenciales y ver a dónde conducen.

En muchas situaciones, no es factible construir un entorno físico donde un algoritmo de aprendizaje por refuerzo pueda aprender. Supongamos que desea probar diferentes estrategias para enrutar una flota de miles de camiones que transportan mercancías desde muchas fábricas a muchos puntos de venta. Sería muy costoso probar todas las estrategias posibles, y ejecutar esas pruebas no solo costaría dinero, sino que las ejecuciones fallidas llevarían a muchos clientes insatisfechos.

Para muchos sistemas grandes, la única forma posible de encontrar la mejor ruta de acción es mediante la simulación. En esas situaciones, debe crear un modelo digital del sistema físico que desea comprender para generar las necesidades de aprendizaje de refuerzo de datos. Estos modelos se denominan, alternativamente, gemelos digitales, simulaciones y entornos de aprendizaje reforzado. Básicamente, todos significan lo mismo en las aplicaciones de fabricación y cadena de suministro.

La recreación de cualquier sistema físico requiere expertos en el dominio que comprendan cómo funciona el sistema. Esto puede ser un problema para sistemas tan pequeños como un solo centro logístico por la sencilla razón de que las personas que construyeron esos sistemas pueden haberse ido o muerto, y sus sucesores han aprendido a operarlos pero no a reconstruirlos.

Muchas herramientas de software de simulación ofrecen interfaces de bajo código que permiten a los expertos en el dominio crear modelos digitales de esos sistemas físicos. Esto es importante, porque la experiencia en el dominio y las habilidades de ingeniería de software a menudo no se pueden encontrar en la misma persona.

¿Por qué pasarías por todos estos problemas por un solo algoritmo? Porque el aprendizaje por refuerzo profundo produce constantemente resultados que otras herramientas de optimización y aprendizaje automático son incapaces de lograr. Mente profunda Lo usó, por supuesto, para vencer al campeón mundial del juego de mesa de Go. El aprendizaje por refuerzo fue parte de los algoritmos que fueron parte integral para lograr resultados revolucionarios con el ajedrez, el plegamiento de proteínas y los juegos de Atari. Igualmente, OpenAI entrenó el aprendizaje de refuerzo profundo para vencer a los mejores equipos humanos en Dota 2.

Al igual que las redes neuronales artificiales profundas comenzaron a encontrar aplicaciones comerciales a mediados de la década de 2010, después de que Geoffrey Hinton fuera contratado por Google y Yann LeCun por Facebook, el aprendizaje por refuerzo profundo también tendrá un impacto cada vez mayor en las industrias. Conducirá a mejoras cuánticas en la automatización robótica y el control del sistema en el mismo orden que vimos con Go. Será lo mejor que tengamos, y por mucho.

La consecuencia de esas ganancias serán inmensos aumentos en la eficiencia y ahorros de costos en la fabricación de productos y cadenas de suministro operativas, lo que conducirá a una disminución de las emisiones de carbono y los accidentes en el lugar de trabajo. Y, para ser claros, los cuellos de botella y los desafíos del mundo físico están a nuestro alrededor. Solo en el último año, nuestras sociedades se han visto afectadas por múltiples interrupciones en la cadena de suministro debido a COVID, bloqueos, la debacle del Canal de Suez y eventos climáticos extremos.

Acercándose a COVID, incluso después de que se desarrolló y aprobó la vacuna, muchos países han tenido problemas para producirla y distribuirla rápidamente. Estos son problemas de fabricación y de la cadena de suministro que involucran situaciones para las que no podríamos prepararnos con datos históricos. Necesitaban simulaciones para predecir lo que sucedería, así como la mejor manera de abordar las crisis cuando ocurran, como lo ilustró Michael Lewis en su libro reciente “La premonición. “

Es precisamente esta combinación de limitaciones y desafíos novedosos que tienen lugar en las fábricas y cadenas de suministro que el aprendizaje reforzado y la simulación pueden ayudarnos a resolver más rápidamente. Y estamos seguros de que nos enfrentaremos a más de ellos en el futuro.

Source link