La prueba comparativa del rendimiento de la IA, MLPerf, sigue ganando adeptos

El miércoles, MLCommons, el consorcio de la industria que supervisa una prueba popular de rendimiento de aprendizaje automático, MLPerf, publicó su último informe de prueba de referencia, que muestra nuevos adherentes, incluidos los fabricantes de computadoras ASUS, H3C y ZhejiangLab, un instituto de investigación formado por el gobierno de la provincia de Zhejiang en China, la Universidad de Zhejiang y el gigante minorista y de inteligencia artificial chino Alibaba.

Esas partes se unen a los remitentes frecuentes Nvidia, Qualcomm, Dell y Microsoft.

El director ejecutivo de MLCommons, David Kanter, elogió el número récord de presentaciones, más de 3900. Esos resultados abarcan una amplia gama de computación, desde centros de datos hasta lo que se conoce como «TinyML», que se ejecutan en dispositivos como microchips integrados que consumen fracciones de vatio de energía.

«Este es un rango dinámico enorme», dijo Kanter. El rendimiento más rápido en el punto de referencia ResNet-50 es un millón de veces más rápido que el sistema más lento, señaló. «Es difícil operar en un amplio rango de rendimiento, pero en realidad es algo que hemos hecho muy bien».

Por ejemplo, la prueba de inferencia en los centros de datos en la nube, donde se realiza la mayor parte de las presentaciones, esta vez informó 926 resultados de prueba distintos, en 84 sistemas, por 14 partes. Eso es más de 754 resultados de prueba informados de 67 sistemas presentados por 13 remitentes en la versión de septiembre del punto de referencia.

Es posible que varias empresas que participan en el esfuerzo de cuatro años no aparezcan de un informe a otro. Por ejemplo, Intel y Hewlett Packard Enterprise, que tuvieron múltiples envíos para informar en septiembre, estuvieron ausentes en el último informe.

En diferentes puntajes de referencia, dijo MLCommons, los resultados muestran una aceleración de hasta 3,3 veces para las computadoras que ejecutan tareas de redes neuronales, como el procesamiento del lenguaje natural, el reconocimiento de imágenes y el reconocimiento de voz.

Lo más destacado del informe esta vez es que más proveedores enviaron más resultados para medir el consumo de energía de sus sistemas informáticos en tareas de IA. Como MarketingyPublicidad.es informado en septiembre, el número de envíos de consumo de energía se había desplomado a solo 350 envíos de 864 en el informe de abril.

Esta vez, hubo 576 resultados de potencia informados para la inferencia en centros de datos en la nube y en dispositivos de «borde» en la nube, en 30 sistemas diferentes. Hubo otras 3948 mediciones de potencia informadas por Krai, la puesta en marcha de IA en modo sigiloso que siempre envía una gran cantidad de resultados de prueba en la categoría «Open Edge», donde los remitentes tienen la libertad de usar enfoques de redes neuronales no estándar.

Krai informó muchas más combinaciones de chips esta vez donde antes solo había informado del acelerador Jetson AGX Xavier de Nvidia. Esta vez, Krai informó resultados para docenas de dispositivos informáticos integrados Raspberry Pi.

«Esta vez, el porcentaje de envíos cerrados con medición de potencia pasó del 15,7 % al 17,6 %, es decir, un aumento, pero todavía tenemos trabajo por hacer allí», dijo Kanter. «Cerrado» se refiere a los envíos que se adhieren estrictamente a la configuración de red neuronal de referencia de MLCommon.

En la visión «abierta», donde los remitentes pueden tomarse libertades con la formación de redes neuronales, que está dominada por Krai, la cantidad de envíos con mediciones de potencia aumentó del 32% al 86%, dijo Kanter.

«Tuvimos algunos remitentes que no pudieron obtener un medidor de energía la última vez debido a problemas con la cadena de suministro», dijo Kanter.

La expansión de las presentaciones se ha visto favorecida, señaló Kanter, por algunos enfoques nuevos adoptados por MLCommons. Por ejemplo, esta vez, a los remitentes se les permitió usar lo que se llama «detención anticipada», donde un remitente puede detener su prueba antes de que haya pasado una cierta cantidad de «épocas» de capacitación, en lugar de entrenar durante el mayor tiempo posible.

Hacerlo significaba que los sistemas más lentos que se verían desafiados incluso a completar una prueba comparativa, especialmente los dispositivos de menor potencia como Raspberry Pi, ya no estarían en una desventaja extrema.

«Detenerse temprano es muy útil», dijo Kanter. «Si puede reducir su tiempo de ejecución por un factor de diez, puede hacer diez veces más puntos de referencia».

En la sección MLPerf TinyML, donde las tareas de referencia incluyen cosas como la latencia en la detección de una «palabra de activación», lo que activa un altavoz inteligente u otro asistente de inteligencia artificial, ocho proveedores compitieron con procesadores novedosos, incluido el diseñador de chips de computadora Andes Technology. Los chips «AndesCore» de Andes utilizan el conjunto de instrucciones de computadora de código abierto RISC-V, que compite con ARM e Intel para ser un conjunto de instrucciones que se puede modificar libremente para cualquier tipo de dispositivo informático.

En una tarea común, «palabras de activación visual», que utiliza el conjunto de datos conocido como COCO 14, «objetos comunes en contexto», para probar el reconocimiento de objetos en imágenes, la empresa emergente Plumerai obtuvo la puntuación más alta en términos de latencia. que crea su propio software para entrenar e implementar modelos de IA en microprocesadores estándar.

Usando un chip STMicroelectronics con un núcleo de procesador ARM Cortex M7, Plumerai entregó resultados COCO 14 en 59,4 milisegundos de latencia.

La única categoría que vio una disminución en los resultados informados fue la categoría de ML móvil, que consiste en resultados para teléfonos móviles y computadoras portátiles. Qualcomm y Samsung presentaron cada uno un sistema, un teléfono inteligente, pero la categoría de computadoras portátiles estaba completamente vacía, mientras que en octubre solo presentó una presentación de Intel.

Cuando se le preguntó acerca de la escasez de informes para dispositivos móviles, Kanter de MLCommons señaló que los dispositivos móviles son una categoría difícil porque los teléfonos móviles son una línea de productos de la que nadie quiere hablar antes de que se anuncien los teléfonos, a diferencia de los servidores en la nube y de borde que tienen una larga vida útil. ciclos

«Muchos de los miembros móviles [of MLCommons] son fabricantes de sistemas en chip y es posible que no quieran usar los teléfonos de sus socios en una versión preliminar», dijo Kanter. Por otro lado, hay menos motivación para enviar resultados de referencia en teléfonos que tienen tres o cuatro Meses de edad.

Kanter dijo que MLCommons está trabajando en formas en el futuro para tratar de cerrar la brecha al facilitar que los fabricantes de teléfonos inteligentes envíen presentaciones sin revelar sus productos.

«A más largo plazo, lo que nos gustaría hacer es lograr que haya una manera, si vas a lanzar un teléfono inteligente el 23 de abril, digamos, que puedas aparecer en el escenario con un número de MLPerf ese día, para que podamos permitir que nuestros socios y miembros se lancen con MLPerf», dijo Kanter.

Las presentaciones de Qualcomm y Samsung para teléfonos consistieron en un teléfono Xiaomi MI12, en el caso de Qualcomm, y el Samsung Galaxy S22+ 5G, que presumieron sus respectivos procesadores, Snapdragon 8 Gen1 y Exynos 2200. En tareas como reconocimiento de imágenes y procesamiento de lenguaje natural, Los resultados de Xiaomi de Qualcomm tuvieron una latencia más baja que el rendimiento de Samsung Galaxy en la mayoría de las pruebas.

Más detalles técnicos sobre el enfoque de referencia de MLPerf están disponibles en el documento de investigación original publicado en 2019 por el grupo.

Deja un comentario