Los puntos de referencia TPC-DS de Databricks alimentan las guerras de plataformas de análisis

databricks-tpc-ds-resultados.png

Resumen de resultados de referencia de TPC-DS de Databricks

Crédito: Consejo de Rendimiento de Procesamiento de Transacciones (TPC)

A medida que crecen las fuentes y los volúmenes de datos, y que la orientación basada en datos se considera cada vez más una necesidad competitiva, la guerra entre los proveedores de plataformas para proporcionar el repositorio principal de nuestros datos es intensa. La guerra tiene varios frentes, uno de los cuales es la analítica. Y dentro de ese ámbito, los campamentos de data warehouse y data lake son los principales combatientes.

El lado del almacenamiento de datos es fuerte, ya que incluye una combinación de proveedores establecidos incondicionales como Teradata y Vertica (ahora parte de Micro Focus), los tres principales proveedores de nube (AWS, Google Cloud, Microsoft Azure) y Snowflake, el favorito de la industria. Del lado del lago de datos, los proveedores independientes, como Cloudera y Databricks, son quizás los competidores más emblemáticos.

Hace unos meses, Databricks dijo que logró resultados de referencia de rendimiento récord que lo hacen victorioso en la batalla, venciendo al modelo de almacenamiento de datos y a los proveedores que lo defienden. Si bien esta ya no es una noticia de última hora, aún es necesario un análisis del anuncio.

No solo pises agua

Si bien los defensores del lago de datos (y «lakehouse», como a Databricks le gusta llamar a su propia plataforma) pueden criticar el almacén como obsoleto, este último está probado en el tiempo y disfruta de cierto dominio. Eso pone la carga de la prueba en el lado del lago de datos para demostrar que puede manejar las mismas cargas de trabajo que el almacén con un rendimiento competitivo.

Databricks ahora cree que tiene esa prueba. En noviembre pasado, la compañía anunció los resultados de un conjunto de puntos de referencia auditados y basados ​​en estándares del Transaction Processing Performance Council (TPC). Las pruebas se realizaron en la plataforma Databricks SQL relativamente nueva, e incluso mejorada recientemente, la base de la empresa para la arquitectura Lakehouse antes mencionada. Específicamente, la configuración comparativa usó Databricks SQL 8.3, que incluye el motor Photon patentado de Databricks, un reemplazo optimizado para el procesador de consultas y procesamiento de vectores para Spark SQL escrito en C++.

Databricks SQL específicamente, y la arquitectura Lakehouse en general, utilizan tecnología de lago de datos en el núcleo, combinada con mejoras, como el cumplimiento de ACID, la reescritura y el procesamiento de vectores, que ayudan a proporcionar paridad de capacidades con las plataformas de almacenamiento de datos. Databricks SQL todavía usa clústeres de máquinas que ejecutan Databricks Runtime basado en Spark, pero optimiza los nodos en esos clústeres para los tipos de consultas y los patrones de demanda de los usuarios comunes en los casos de uso de almacenamiento de datos e inteligencia empresarial (BI).

DS, FTW

Databricks usó el conjunto de pruebas TPC-DS, durante mucho tiempo un estándar de la industria para la evaluación comparativa de los sistemas de almacenamiento de datos. Los puntos de referencia se llevaron a cabo en un clúster Databricks SQL de 256 nodos y 2112 núcleos muy robusto, cuya infraestructura en la nube tiene un precio de más de $ 5 millones por parte de Databricks. «DS», por cierto, significa «soporte de decisiones», un precursor del término inteligencia empresarial que, dado el diseño y la misión de Databricks SQL, es bastante apropiado.

Databricks caracteriza los resultados de referencia diciendo que estableció un nuevo récord mundial para el rendimiento de TPC-DS ejecutado en cualquier plataforma, ya sea almacén, lago o lago.

El poseedor anterior del récord de rendimiento a la escala de las ejecuciones comparativas de TPC-DS de Databricks fue Alibaba. El gigante chino de Internet y comercio electrónico había logrado un resultado de 14 861 137 QphDS a 100 TB (consultas de soporte de decisiones por hora, basadas en consultas que involucran 100 TB de datos), utilizando su propio almacén de datos personalizado, y también bastante robusto. sistema.

Mientras tanto, Databricks anunció que logró un resultado de 32 941 245 QphDS a 100 TB, más del doble del rendimiento de Alibaba. Lo hizo en un sistema que, según la compañía, tenía un costo 10% más bajo que la plataforma de elaboración casera de Alibaba. Y aunque los puntos de referencia fueron realizados por Databricks, los resultados fueron auditados por TPC.

En opinión de Databricks, estableció un récord histórico.

La compañía cree además que cualquier bloqueo que impidiera que los clientes usaran una plataforma de lago en lugar de una plataforma de almacén ahora debe eliminarse. Eso es importante porque, incluso en su defensa del enfoque de la casa del lago, Databricks admitió anteriormente que las plataformas de almacén funcionaron mejor para ciertas cargas de trabajo, y la empresa entendió que este déficit de rendimiento impedía que los clientes se pasaran al lado de la casa del lago.

Enfrentando a Copo de Nieve

Databricks sintió claramente que estos resultados de referencia lo hicieron enfrentar con éxito al favorito del almacén de datos Snowflake. Hablando de eso, más allá de los resultados de referencia de TPC, Databricks está promocionando el trabajo realizado por el Barcelona Supercomputing Center (BSC) comparando Databricks SQL y Snowflake. Databricks dice que este trabajo, que se basó en los puntos de referencia de TPC-DS pero no auditado por TPC, muestra que Databricks SQL es 2.7 veces más rápido (consulte la figura a continuación de una publicación de blog de Databricks sobre el tema). BSC también informa que un clúster SQL de Databricks es 12 veces mejor en términos de rendimiento de precios que una configuración de Snowflake de tamaño similar.

tpc-ds-blog-img-3.png

Databricks SQL vs. Snowflake usando un punto de referencia derivado de TPC-DS.

Crédito: ladrillos de datos

Aquí hay mucho giro, pero lo que muestran los resultados de TPC y BSC es que la arquitectura Lakehouse puede asumir estas cargas de trabajo de BI. Esto es significativo porque la mayoría de los sistemas basados ​​en Spark, incluidos los Databricks, anteriormente habían sido mejores para la ingeniería de datos, el aprendizaje automático y las consultas intermitentes en el ámbito analítico. Conseguir un sistema de este tipo para dar servicio a las cargas de trabajo de análisis en curso, o el análisis ad hoc que implicaba múltiples consultas que se complementan entre sí, era más difícil de conseguir.

Si la pregunta es si esto significa que la casa del lago ahora es un reemplazo para un almacén, entonces la respuesta no está clara.

La principal razón de esta falta de claridad tiene que ver con la opinión de los clientes sobre por qué un lago o casa del lago fue no un sustituto adecuado, antes. Sí, para algunos, la razón para quedarse con un almacén fue el rendimiento, y este conjunto de puntos de referencia de TPC puede abordar esas preocupaciones e influir en los clientes que las adoptaron.

Una cuestión de formalidad

Para otros clientes, los criterios tienen más que ver con el paradigma, incluido el modelado de datos y, en cierto sentido, el gobierno de datos, que con el rendimiento. El espíritu de un lago es almacenar datos en forma de archivos con nombre en formatos abiertos, de modo que los datos sean compatibles y puedan ser utilizados por una variedad de bases de datos y motores de análisis. Y debido a que los datos se almacenan como archivos en el disco o en la nube, se reduce la necesidad (y la voluntad) de modelarlos.

Esto hace que los datos sean menos formales, a menudo menos analizados y también menos examinados. El control está más delegado, lo que facilita la introducción de datos. (Estas características de un lago de datos también se aplican a los escenarios de la casa del lago).

Un almacén de datos es más formal y controlado y, por lo general, aplica un modelo de datos más explícito y completo. Es menos ágil, lo que frustra a los usuarios, pero también tiene más filtro, lo que puede correlacionarse con un grado generalmente más alto de calidad de datos y confianza del usuario.

Grandes puntos de referencia para big data

databricks-tpc-ds-configuración.png

Configuración comparativa de Databricks TPC-DS

Crédito: Consejo de Rendimiento de Procesamiento de Transacciones (TPC)

Un sistema con una infraestructura valorada en 5 millones de dólares y volúmenes masivos de datos puede competir con el desempeño de las pruebas comparativas de Alibaba, pero no es típico de lo que la mayoría de los clientes necesitan o pueden pagar. Muestra que Databricks SQL puede asumir grandes cargas de trabajo y, para algunos clientes, eso en sí mismo será importante.

La importancia de los resultados de las pruebas comparativas de Databricks se puede comprender mejor si se formula correctamente la pregunta. Databricks lo enmarcaría en términos de: «¿Qué modelo reina supremo?» Pero tal vez la pregunta sea: «¿Qué modelo atrae más a clientes particulares, en casos de uso particulares?» Seguido de: «¿El rendimiento ahora es suficiente con ambos modelos?»

En última instancia, la mayoría de las empresas probablemente puedan beneficiarse de un almacén de datos y un lago de datos (casa). El almacén puede ser un depósito de datos altamente examinados, cuidadosamente conformados y modelados para generar informes, paneles operativos y consultas ad hoc en el ámbito de las «incógnitas conocidas». Mientras tanto, los lagos y las casas de los lagos pueden acomodar más datos, con un proceso de incorporación más corto, con menos «modelado sobre escritura» y se pueden usar para análisis exploratorios y visualizaciones improvisadas.

La victoria, no el ganador

Los resultados de TPC dejan claro que ambos modelos funcionan bien, brindan excelentes resultados, pueden interactuar cuando sea necesario y funcionan con las mismas herramientas de BI. También son rentables, primero en la nube, elásticos y ágiles. Pero a pesar de que la cuestión del almacén/lakehouse no necesita elegir entre uno u otro, los proveedores tienen una ventaja al verlo de esa manera: la competencia por los mismos clientes y las mismas cargas de trabajo da como resultado una innovación continua que beneficia al cliente.

Si los puntos de referencia de TPC son el árbitro final de lo que es mejor dependerá del criterio del comprador. Sin embargo, los resultados de TPC-DS de Databricks son impresionantes. Son un hito para la industria y una función obligada para asegurarse de que los proveedores adopten un enfoque de mejora continua, ya sea que promocionen el lago, la casa del lago o el almacén.

Deja un comentario