Cuando se trata de modelos de lenguaje grande, ¿debería construir o comprar?

Cuando se trata de modelos de lenguaje grande, ¿debería construir o comprar?

Colaborador de Tanmay Chopra

Tanmay Chopra trabaja en aprendizaje automático en inicio de búsqueda de IA Neeva, donde discute modelos de lenguaje grandes y pequeños. Anteriormente, supervisó el desarrollo de sistemas de ML a nivel mundial para contrarrestar la violencia y el extremismo en TikTok.

El verano pasado solo podría describirse como un “verano de IA”, especialmente con grandes modelos de lenguaje haciendo una entrada explosiva. Vimos enormes redes neuronales entrenadas en un corpus masivo de datos que pueden realizar tareas extremadamente impresionantes, ninguna más famosa que GPT-3 de OpenAI y su descendiente más nuevo y publicitado, ChatGPT.

Las empresas de todas las formas y tamaños en todas las industrias se apresuran a descubrir cómo incorporar y extraer valor de esta nueva tecnología. Pero el modelo comercial de OpenAI no ha sido menos transformador que sus contribuciones al procesamiento del lenguaje natural. A diferencia de casi todos los lanzamientos anteriores de un modelo insignia, este no viene con pesos preentrenados de código abierto, es decir, los equipos de aprendizaje automático no pueden simplemente descargar los modelos y ajustarlos para sus propios casos de uso.

En cambio, deben pagar para usarlos tal como están, o pagar para ajustar los modelos y luego pagar cuatro veces la tarifa de uso tal como están para emplearlos. Por supuesto, las empresas aún pueden elegir otros modelos de código abierto similares.

Esto ha dado lugar a una antigua pregunta corporativa, pero completamente nueva en ML: ¿Sería mejor comprar o desarrollar esta tecnología?

Es importante tener en cuenta que no existe una respuesta única para esta pregunta; No estoy tratando de proporcionar una respuesta general. Me refiero a resaltar los pros y los contras de ambas rutas y ofrecer un marco que podría ayudar a las empresas a evaluar lo que funciona para ellas al tiempo que proporciona algunos caminos intermedios que intentan incluir componentes de ambos mundos.

Compra: rápido, pero con trampas claras

Si bien la construcción parece atractiva a largo plazo, requiere un liderazgo con un fuerte apetito por el riesgo, así como cofres profundos para respaldar dicho apetito.

Comencemos con la compra. Hay una gran cantidad de proveedores de modelos como servicio que ofrecen modelos personalizados como API, cobrando por solicitud. Este enfoque es rápido, confiable y requiere poco o ningún gasto de capital inicial. Efectivamente, este enfoque elimina los riesgos de los proyectos de aprendizaje automático, especialmente para las empresas que ingresan al dominio, y requiere una experiencia interna limitada más allá de los ingenieros de software.

Los proyectos se pueden iniciar sin necesidad de personal con experiencia en aprendizaje automático, y los resultados del modelo pueden ser razonablemente predecibles, dado que el componente ML se compra con un conjunto de garantías en torno a la salida.

Desafortunadamente, este enfoque viene con trampas muy claras, entre las cuales se encuentra la defensa limitada del producto. Si está comprando un modelo que cualquiera puede comprar e integrar en sus sistemas, no es demasiado descabellado suponer que sus competidores pueden lograr la paridad de productos con la misma rapidez y confiabilidad. Eso será cierto a menos que pueda crear un foso aguas arriba a través de técnicas de recopilación de datos no replicables o un foso aguas abajo a través de integraciones.

Además, para soluciones de alto rendimiento, este enfoque puede resultar extremadamente costoso a escala. Por contexto, DaVinci de OpenAI cuesta $ 0.02 por cada mil tokens. De manera conservadora, asumiendo 250 tokens por solicitud y respuestas de tamaño similar, está pagando $0.01 por solicitud. Por un producto con 100 000 solicitudes por día, pagaría más de $300 000 al año. Obviamente, las aplicaciones con mucho texto (que intentan generar un artículo o participar en un chat) generarían costos aún más altos.

También debe tener en cuenta la flexibilidad limitada ligada a este enfoque: o utiliza los modelos tal cual o paga mucho más para ajustarlos. Vale la pena recordar que el último enfoque implicaría un período de “bloqueo” tácito con el proveedor, ya que los modelos ajustados se mantendrán bajo su custodia digital, no la suya.

Construcción: Flexible y defendible, pero costosa y riesgosa

Por otro lado, construir tu propia tecnología te permite sortear algunos de estos desafíos.


Source link