Domino Data Lab agrega escalado automático a MLOps

ds.png

Shutterstock

Como informó Andrew Brust, gran experto en datos, el otoño pasado, Domino Data Lab ha estado adoptando últimamente una visión más amplia de MLOps, desde la gestión de experimentos hasta la integración continua/entrega continua de modelos, ingeniería de funciones y gestión del ciclo de vida. En la versión 5.0 lanzada recientemente, Domino se centra en los obstáculos que normalmente ralentizan el despliegue físico.

La principal de las nuevas capacidades es el escalado automático. Antes de esto, los científicos de datos tenían que desempeñar el papel de ingenieros de clúster o trabajar con ellos para poner los modelos en producción y administrar la computación. La nueva versión permite automatizar este paso, nivelando el campo de juego con servicios en la nube como Amazon SageMaker y Google Vertex AI que ya lo hacen, y Azure Machine Learning ofrece en versión preliminar. Para facilitar aún más el camino, está certificado para ejecutarse en la plataforma Nvidia AI Enterprise (Nvidia es uno de los inversores en Domino).

Las funciones de escalado automático se basan en la compatibilidad con Ray y Dask (además de Spark) que se agregó en la versión 4.6 anterior, que proporciona API para incorporar computación distribuida en el código.

Otra característica nueva de 5.0 que aborda la implementación es la adición de una nueva biblioteca de conectores de datos, por lo que los científicos de datos no tienen que reinventar la rueda cada vez que intentan conectarse a Snowflake, AWS Redshift o AWS S3; se agregarán otras fuentes de datos en el futuro.

Completando la versión 5.0 está el monitoreo integrado. Esto en realidad integró una capacidad previamente independiente y tuvo que configurarse manualmente. Con 5.0, Domino configura automáticamente el monitoreo, captura transmisiones de predicción en vivo y ejecuta comprobaciones estadísticas de producción frente a datos de entrenamiento una vez que se implementa un modelo. Y para la depuración, captura instantáneas del modelo: la versión del código, los conjuntos de datos y las configuraciones del entorno informático. Con un solo clic, los científicos de datos activan un entorno de desarrollo del modelo versionado para realizar la depuración. El sistema, sin embargo, en este punto no automatiza la detección ni hace recomendaciones sobre dónde se deben reparar los modelos.

La chispa (sin juego de palabras) para las capacidades 5.0 es abordar los dolores de cabeza operativos que obligan a los científicos de datos a realizar tareas de ingeniería de sistemas o clústeres o confiar en los administradores para que las realicen por ellos.

Pero también existe el cuello de botella de la ingeniería de datos, como descubrimos en la investigación que realizamos para Ovum (ahora Omdia) y Dataiku en 2018. A partir de debates en profundidad con más de una docena de directores de datos, descubrimos que los científicos de datos suelen gastar más de la mitad el tiempo con la ingeniería de datos. La versión 5.0 aborda un obstáculo importante en la ingeniería de datos: conectarse a fuentes de datos externas populares, pero actualmente, Domino no aborda la configuración de canalizaciones de datos o, más elementalmente, la automatización de tareas de preparación de datos. Por supuesto, esto último (la integración de la preparación de datos) es lo que impulsó la adquisición de Paxata por parte de Data Robot en 2019.

Las funciones 5.0 reflejan cómo Domino Data Lab y otras herramientas de gestión del ciclo de vida de ML han tenido que ampliar el enfoque del ciclo de vida del modelo a la implementación. Eso, a su vez, refleja el hecho de que, a medida que las empresas adquieren más experiencia con ML, desarrollan más modelos con mayor frecuencia y necesitan industrializar lo que originalmente habían sido procesos únicos. No nos sorprendería que Domino se enfocara a continuación en las tiendas de características.

Deja un comentario