NVIDIA presenta Hopper, su nueva arquitectura de hardware para transformar los centros de datos en fábricas de IA

NVIDIA lo hizo de nuevo, pero esta vez con un giro: parecía tomar prestada una página del libro de jugadas de la competencia. En NVIDIA GTC, que se ha convertido en uno de los eventos más importantes de la industria de la IA, la compañía anunció la última versión de su arquitectura de hardware y sus productos. Aquí hay un desglose de los anuncios y lo que significan para el ecosistema en general.

Hopper: la nueva arquitectura GPU de NVIDIA

GTC, que comenzó el lunes y se extenderá hasta el jueves, presenta más de 900 sesiones. Más de 200 000 desarrolladores, investigadores y científicos de datos de más de 50 países se han registrado para el evento. En su GTC 2022 fundamentalel fundador y CEO de NVIDIA, Jensen Huang, anunció una gran cantidad de novedades en centros de datos y computación de alto rendimiento, IA, colaboración de diseño y gemelos digitales, redes, automoción, robótica y atención médica.

El marco de Huang fue que «las empresas están procesando, refinando sus datos, creando software de IA… convirtiéndose en fabricantes de inteligencia». Si el objetivo es transformar los centros de datos en ‘Fábricas de IA’, como dice NVIDIA, entonces tiene sentido colocar a los Transformers en el centro de todo esto.

La página central de los anuncios ha sido la nueva arquitectura Hopper GPU, que NVIDIA denomina «la próxima generación de computación acelerada». Nombrada en honor a Grace Hopper, una científica informática pionera de EE. UU., la nueva arquitectura sucede a la arquitectura NVIDIA Ampere, lanzada hace dos años. La compañía también anunció su primera GPU basada en Hopper, la NVIDIA H100.

NVIDIA afirma que Hopper brinda un salto de rendimiento de un orden de magnitud con respecto a su predecesor, y esta hazaña se basa en seis innovaciones revolucionarias. Repasémoslos, tomando notas rápidas de cómo se comparan con la competencia.

Primero, la fabricación. Construido con 80 mil millones de transistores utilizando un proceso TSMC 4N de vanguardia diseñado para las necesidades informáticas aceleradas de NVIDIA, H100 presenta importantes avances para acelerar la IA, HPC, ancho de banda de memoria, interconexión y comunicación, incluidos casi 5 terabytes por segundo de conectividad externa. En el nivel de fabricación, los advenedizos como Cerebras o Graphcore también han estado ampliando los límites de lo que es posible.

hopper-arch-h100-die-imagen.png

La GPU NVIDIA H100, la primera en utilizar la nueva arquitectura Hopper

NVIDIA

En segundo lugar, GPU de múltiples instancias (MIG). La tecnología MIG permite dividir una sola GPU en siete instancias más pequeñas y completamente aisladas para manejar diferentes tipos de trabajos. La arquitectura Hopper amplía las capacidades MIG hasta 7 veces con respecto a la generación anterior al ofrecer configuraciones seguras de múltiples inquilinos en entornos de nube en cada instancia de GPU. Run:AI, un socio de NVIDIA, ofrece algo similar a una capa de software, con el nombre de uso compartido fraccional de GPU.

Tercero, computación confidencial. NVIDIA afirma que H100 es el primer acelerador del mundo con capacidades informáticas confidenciales para proteger los modelos de IA y los datos de los clientes mientras se procesan. Los clientes también pueden aplicar la computación confidencial al aprendizaje federado para industrias sensibles a la privacidad, como servicios financieros y de salud, así como en infraestructuras de nube compartidas. Esta no es una característica que hayamos visto en otros lugares.

Cuarto, NVIDIA NVLink de cuarta generación. Para acelerar los modelos de IA más grandes, NVLink se combina con un nuevo conmutador NVLink externo para extender NVLink como una red escalable más allá del servidor, conectando hasta 256 GPU H100 con un ancho de banda 9 veces mayor en comparación con la generación anterior que usa NVIDIA HDR Quantum InfiniBand. Nuevamente, esto es específico de NVIDIA, aunque los competidores a menudo aprovechan su propia infraestructura especializada para conectar también su hardware.

Quinto, instrucciones DPX para acelerar la programación dinámica. La programación dinámica es tanto un método de optimización matemática como un método de programación de computadoras, desarrollado originalmente en la década de 1950. En términos de optimización matemática, la programación dinámica generalmente se refiere a simplificar una decisión dividiéndola en una secuencia de pasos de decisión a lo largo del tiempo. La programación dinámica es principalmente una optimización sobre recursividad simple.

NVIDIA señala que la programación dinámica se utiliza en una amplia gama de algoritmos, incluida la optimización de rutas y la genómica, y puede acelerar la ejecución hasta 40 veces en comparación con las CPU y hasta 7 veces en comparación con las GPU de la generación anterior. No conocemos un equivalente directo en la competencia, aunque muchos nuevos chips de IA también aprovechan el paralelismo.

La sexta innovación es la que consideramos más importante: un nuevo motor Transformer. Como señala NVIDIA, los transformadores son la opción de modelo estándar para el procesamiento del lenguaje natural y uno de los modelos de aprendizaje profundo más importantes jamás inventados. El Transformer Engine del acelerador H100 está diseñado para acelerar estas redes hasta 6 veces en comparación con la generación anterior sin perder precisión. Esto merece un mayor análisis.

El Transformer Engine en el corazón de Hopper

Mirando el titular del nuevo motor de transformador en el corazón de H100 de NVIDIA, recordamos los comentarios del arquitecto de Intel Raja M. Koduri a Tiernan Ray de MarketingyPublicidad.es. Koduri señaló que la aceleración de las multiplicaciones de matrices es ahora una medida esencial del rendimiento y la eficiencia de los chips, lo que significa que cada chip será un procesador de red neuronal.

Koduri fue perfecto, por supuesto. Además de los propios esfuerzos de Intel, esto es lo que ha estado impulsando una nueva generación de diseños de chips de IA de una variedad de advenedizos. Ver a NVIDIA referirse a un motor de transformador nos hizo preguntarnos si la empresa hizo un rediseño radical de sus GPU. Después de todo, las GPU no se diseñaron originalmente para cargas de trabajo de IA, simplemente resultaron ser buenas en ellas, y NVIDIA tuvo la previsión y la perspicacia para construir un ecosistema a su alrededor.

Sin embargo, al profundizar en el propio análisis de NVIDIA de la arquitectura Hopper, la noción de un rediseño radical parece disiparse. Si bien Hopper presenta un nuevo multiprocesador de transmisión (SM) con muchas mejoras de rendimiento y eficiencia, eso es todo. Eso no es sorprendente, dado el gran peso del ecosistema construido alrededor de las GPU NVIDIA y las actualizaciones masivas y las posibles incompatibilidades que implicaría un rediseño radical.

Desglosando las mejoras en Hopper, la memoria parece ser una gran parte. Como dijo el gerente de producto de Facebook para PyTorch, la popular biblioteca de capacitación de aprendizaje automático, MarketingyPublicidad.es, «Los modelos se hacen cada vez más grandes, son muy, muy grandes y muy caros de entrenar». Los modelos más grandes en estos días a menudo no se pueden almacenar por completo en los circuitos de memoria que acompañan a una GPU. Hopper viene con memoria que es más rápida, más y compartida entre SM.

Otro impulso proviene de los nuevos núcleos tensoriales de cuarta generación de NVIDIA, que son hasta 6 veces más rápidos de chip a chip en comparación con A100. Los núcleos de tensor son precisamente lo que se usa para las multiplicaciones de matrices. En H100, se utiliza un nuevo tipo de datos FP8, lo que da como resultado un cálculo 4 veces más rápido en comparación con las opciones de coma flotante de 16 bits de la generación anterior. En tipos de datos equivalentes, todavía hay una aceleración de 2x.

h100-compute-improvement-summary-625x300.jpg

Resumen de mejora informática H100

NVIDIA

En cuanto al llamado «nuevo motor de transformador», resulta que este es el término que usa NVIDIA para referirse a «una combinación de software y tecnología NVIDIA Hopper Tensor Core personalizada diseñada específicamente para acelerar el entrenamiento y la inferencia del modelo de transformador».

NVIDIA señala que el motor del transformador gestiona de forma inteligente y elige de forma dinámica entre FP8 y cálculos de 16 bits, gestionando automáticamente la refundición y el escalado entre FP8 y 16 bits en cada capa para ofrecer un entrenamiento de IA hasta 9 veces más rápido y una inferencia de IA hasta 30 veces más rápida. aceleraciones en modelos de lenguaje grande en comparación con la generación anterior A100.

Entonces, si bien este no es un rediseño radical, la combinación de mejoras de rendimiento y eficiencia da como resultado una aceleración de 6 veces en comparación con Ampere, como explica el blog técnico de NVIDIA. El enfoque de NVIDIA en mejorar el rendimiento de los modelos de transformadores no está del todo fuera de lugar.

Los modelos de transformadores son la columna vertebral de los modelos de lenguaje que se utilizan ampliamente en la actualidad, como BERT y GPT-3. Inicialmente desarrollado para casos de uso de procesamiento de lenguaje natural, su versatilidad se aplica cada vez más a la visión artificial, el descubrimiento de fármacos y más, como hemos documentado en nuestra cobertura sobre el estado de la IA. Según una métrica compartida por NVIDIA, el 70 % de las investigaciones publicadas sobre IA en los últimos 2 años se basan en transformadores.

El lado del software: buenas noticias para los usuarios de Apache Spark

Pero, ¿qué pasa con el lado del software de las cosas? En anuncios anteriores de GTC, las actualizaciones de la pila de software fueron una parte clave de las noticias. En este caso, mientras que las heurísticas ajustadas por NVIDIA que eligen dinámicamente entre los cálculos FP8 y FP16 son una parte clave interna del nuevo motor de transformadores, las actualizaciones de la pila de software externa parecen menos importantes en comparación.

El servidor de inferencia Triton de NVIDIA y el marco NeMo Megatron para entrenar modelos de lenguaje grandes están recibiendo actualizaciones. También lo son Riva, Merlin y Maxin, un SDK de inteligencia artificial de voz que incluye modelos preentrenados, un marco de referencia de inteligencia artificial de extremo a extremo y un SDK de mejora de calidad de audio y video, respectivamente. Como destacó NVIDIA, estos son utilizados por empresas como AT&T, Microsoft y Snapchat.

También hay 60 actualizaciones de SDK para las bibliotecas CUDA-X de NVIDIA. NVIDIA optó por destacar áreas emergentes como la aceleración de la simulación de circuitos cuánticos (disponibilidad general de cuQuantum) y la investigación de la capa física 6G (disponibilidad general de Sionna). Sin embargo, para la mayoría de los usuarios, la buena noticia probablemente esté en la actualización de RAPIDS Accelerator para Apache Spark, que acelera el procesamiento en más de 3 veces sin cambios en el código.

Si bien esto no fue exactamente prominente en los anuncios de NVIDIA, creemos que debería serlo. Una aceleración de la noche a la mañana 3x sin cambios de código para los usuarios de Apache Spark, con el 80 por ciento de Fortune 500 usando Apache Spark en producción, no es una noticia pequeña. Tampoco es la primera vez que NVIDIA muestra algo de amor a los usuarios de Apache Spark.

En general, NVIDIA parece estar manteniendo su impulso. Si bien la competencia es feroz, con la ventaja inicial que NVIDIA ha logrado crear, es posible que no se requieran rediseños radicales.

Deja un comentario