MLCommons debuta con un conjunto de datos de voz públicos de 86.000 horas para investigadores de IA

MLCommons debuta con un conjunto de datos de voz públicos de 86.000 horas para investigadores de IA

Si desea crear un sistema de aprendizaje automático, necesita datos para ello, pero esos datos no siempre son fáciles de conseguir. MLCommons tiene como objetivo unir a empresas y organizaciones dispares en la creación de grandes bases de datos públicas para la capacitación en inteligencia artificial, de modo que los investigadores de todo el mundo puedan trabajar juntos en niveles superiores y, al hacerlo, avanzar en el campo naciente en su conjunto. Su primer esfuerzo, People’s Speech Dataset, es muchas veces más grande que otros similares y también apunta a ser más diverso.

MLCommons es una nueva organización sin fines de lucro relacionada con MLPerf, que ha recopilado información de docenas de empresas e instituciones académicas para crear puntos de referencia estándar de la industria para el rendimiento del aprendizaje automático. El esfuerzo ha tenido éxito, pero en el proceso, el equipo encontró una escasez de conjuntos de datos abiertos que todos pudieran usar.

Si desea hacer una comparación de manzanas con manzanas de un modelo de Google con un modelo de Amazon, o para el caso con un modelo de UC Berkeley, realmente todos deberían estar usando los mismos datos de prueba. Con la visión por computadora, uno de los conjuntos de datos más extendidos es ImageNet, que es utilizado y citado por todos los artículos y expertos más influyentes. Pero no existe tal conjunto de datos para, digamos, la precisión de voz a texto.

“Los puntos de referencia hacen que la gente hable sobre el progreso de una manera sensata y mensurable. Y resulta que si el objetivo es hacer avanzar la industria, necesitamos conjuntos de datos que podamos usar, pero muchos de ellos son difíciles de usar por razones de licencia o no son de última generación ”, dijo el cofundador de MLCommons. y el director ejecutivo David Kanter.

Ciertamente, las grandes empresas tienen enormes conjuntos de datos de voz propios, pero son propietarios y tal vez estén legalmente restringidos para que otros los utilicen. Y hay conjuntos de datos públicos, pero con solo unos pocos miles de horas su utilidad es limitada: para ser competitivo hoy en día, se necesita mucho más que eso.

“La creación de grandes conjuntos de datos es excelente porque podemos crear puntos de referencia, pero también hace avanzar la aguja para todos. No podemos rivalizar con lo que está disponible internamente, pero podemos recorrer un largo camino para cerrar esa brecha ”, dijo Kanter. MLCommons es la organización que formaron para crear y gestionar los datos y las conexiones necesarias.

El People’s Speech Dataset se reunió a partir de una variedad de fuentes, con aproximadamente 65,000 de sus horas provenientes de audiolibros en inglés, con el texto alineado con el audio. Luego hay 15,000 horas aproximadamente obtenidas de la web, con diferentes acústicas, oradores y estilos de habla (por ejemplo, conversacional en lugar de narrativa). Además, se obtuvieron 1.500 horas de audio en inglés de Wikipedia, y luego se mezclaron 5.000 horas de voz sintética de texto generado por GPT-2 (“Un poco de la serpiente comiéndose su propia cola”, bromeó Kanter). Cincuenta y nueve idiomas en total están representados de alguna manera, aunque, como puede ver, es principalmente inglés.

Aunque la diversidad es el objetivo (no se puede construir un asistente virtual en portugués a partir de datos en inglés), también es importante establecer una línea de base para lo que se necesita para los propósitos actuales. ¿Son suficientes 10,000 horas para construir un modelo de voz a texto decente? ¿O tener 20.000 disponibles hace que el desarrollo sea mucho más fácil, rápido o eficaz? ¿Qué pasa si quieres ser excelente en inglés americano pero también decente con acentos indios e ingleses? ¿Cuántos de esos necesitas?

El consenso general con los conjuntos de datos es simplemente “cuanto más grande, mejor”, y empresas como Google y Apple están trabajando con mucho más de unos pocos miles de horas. De ahí las 86.000 horas en esta primera iteración del conjunto de datos. Y definitivamente es el primero de muchos, con versiones posteriores que se expandirán a más idiomas y acentos.

“Una vez que verifiquemos que podemos ofrecer valor, simplemente publicaremos y seremos honestos sobre el estado en el que se encuentra”, explicó Peter Mattson, otro cofundador de MLCommons y actualmente director del Grupo de métricas de aprendizaje automático de Google. “También necesitamos aprender a cuantificar la idea de diversidad. La industria quiere esto; necesitamos más experiencia en la construcción de conjuntos de datos: hay un enorme retorno de la inversión para todos al respaldar una organización de este tipo “.

La organización también espera estimular el intercambio y la innovación en el campo con MLCube, un nuevo estándar para pasar modelos de un lado a otro que elimina algunas de las conjeturas y el trabajo de ese proceso. Aunque el aprendizaje automático es una de las áreas de investigación y desarrollo más activas del sector tecnológico, tomar su modelo de IA y dárselo a otra persona para que lo pruebe, ejecute o modifique no es tan simple como debería ser.

Su idea con MLCube es un contenedor para modelos que describe y estandariza algunas cosas, como dependencias, formato de entrada y salida, hosting, etc. La IA puede ser fundamentalmente compleja, pero ella y las herramientas para crearla y probarla aún están en su infancia.

El conjunto de datos debería estar disponible ahora, o pronto, desde Sitio web de MLCommons, bajo la licencia CC-BY, que permite el uso comercial; También se lanzarán algunos modelos de referencia entrenados en el set.


Source link