El anillo cero del procesamiento de datos en tiempo real: Redpanda obtiene una financiación de la Serie B de $ 50 millones para hacer crecer su plataforma de transmisión

El procesamiento de datos en tiempo real está de moda. Pioneros como Netflix lo han estado haciendo durante años y cosechando los beneficios. Big on Data también ha estado en esto durante años. Ahora el resto del mundo parece estar poniéndose al día.

Se proyecta que el mercado de análisis de transmisión (que, según las definiciones, puede ser solo un segmento del procesamiento de datos en tiempo real) crecerá de $ 15,4 mil millones en 2021 a $ 50,1 mil millones en 2026, a una tasa de crecimiento anual compuesta (CAGR) de 26.5% durante el período de pronóstico según Mercados y Mercados.

Hoy, Redpanda Data (anteriormente Vectorized) anunció que ha recaudado $50 millones en fondos de la Serie B, liderados por GV con la participación de Lightspeed Venture Partners (LSVP) y Haystack VC. Lanzado a principios de 2021, Redpanda se promociona como una plataforma de transmisión moderna que brinda a los desarrolladores un sistema de registro más simple, rápido, confiable y unificado para datos empresariales históricos y en tiempo real.

Nos reunimos con el fundador y director ejecutivo de Redpanda, Alex Gallego, para hablar sobre los orígenes y la premisa clave de la plataforma, así como sobre los fundamentos comerciales y la hoja de ruta.

evolución natural

Una cosa que debe saber sobre el mercado de procesamiento de datos en tiempo real es que existe una especie de estándar de facto: Apache Kafka. Seguimos a Kafka y Confluent, la empresa que lo comercializa, desde 2017. de MarketingyPublicidad.es el propio Tony Baer y Andrew Brust se han mantenido al día, y Baer resumió la evolución de Kafka y Confluent en abril de 2021, cuando Confluent presentó una solicitud de oferta pública inicial de forma confidencial.

En 2019, más del 90 % de las personas que respondieron a una encuesta de Confluent consideraron que Kafka era fundamental para su infraestructura de datos, y las consultas sobre Stack Overflow crecieron más del 50 % durante el año. Sin embargo, a pesar del éxito de Confluent y de la amplia adopción de Kafka, el hecho es que los cimientos de Kafka se sentaron en 2008.

A medida que el procesamiento de datos en tiempo real se adopta cada vez más, los riesgos aumentan y los requisitos se vuelven más exigentes. Gallego ha estado trabajando en el procesamiento de transmisiones durante aproximadamente 13 años antes de comenzar a trabajar en el motor de Redpanda. En 2016, vendió Concord, otra empresa en el espacio de procesamiento de datos en tiempo real, a Akamai.

Redpanda comenzó como «la evolución natural» de lo que Gallego pensaba que debería ser el streaming. Su motivación era comprender cuál era la brecha entre lo que podía hacer el hardware y lo que podía hacer el software:

«Literalmente, conecté computadoras perimetrales con el cable espalda con espalda solo para asegurarme de que no hubiera nada entre estas dos computadoras. Y solo quería medir y comprender: ¿cuál es la evolución fundamental del hardware? ¿hardware?» dijo Gallego.

Sus hallazgos sugirieron que las soluciones existentes, creadas para hardware de una década, estaban orientadas a abordar lo que era la limitación fundamental del hardware en ese momento: el disco giratorio. Descubrió que la nueva limitación es en realidad la coordinación de la CPU.

panda-en-cohete-a9a6ce7f9a0e20065de6b81790ffcdc8.jpg

Redpanda es la «evolución natural» del procesamiento de datos en tiempo real, según su fundador. Imagen: Redpanda

A veces realmente tienes que reinventar la rueda cuando cambia el camino, así resumió Gallego sus hallazgos. En 2017 compartió públicamente sus hallazgos y en 2019 comenzó a trabajar en Redpanda. Originalmente, Redpanda era una plataforma de expertos por expertos, dijo Gallego: «Fue diseñada para personas que eran como yo: expertos en transmisión que querían algo más con el almacenamiento».

Gallego no es el único que señala las deficiencias de Kafka. Alrededor del 40% de los clientes de Redpanda son expertos en motores de transmisión, dijo Gallego. Fundamentalmente, la elección de mantener la compatibilidad con la API de Kafka y todo el ecosistema de Kafka se tomó desde el principio. El motor de almacenamiento de Redpanda se escribió antes de embarcarse en la construcción de una empresa.

Redpanda fue inicialmente de código cerrado. A fines de 2020, se puso a disposición la fuente, adoptando la licencia BSL, inspirada en CockroachDB. En 2021, dijo Gallego, Redpanda comenzó con cientos de clientes. A mediados de año, eran miles y terminaron el año en cientos de miles de grupos de Redpanda.

El Ring Zero del procesamiento de datos en tiempo real

Además de los expertos, Redpanda también ha atraído a personas que nunca antes habían oído hablar de la transmisión, señaló Gallego. Al mismo tiempo, siente que el crédito se debe a Kafka, así como a Pulsar, RabbitMQ y toda la familia de sistemas de transmisión que precedieron a Redpanda.

Además: los datos van a la nube en tiempo real, al igual que ScyllaDB 5.0

El corredor de Kafka fue una pieza fundamental en la construcción de la infraestructura de transmisión de datos, reconoció Gallego. Lo más poderoso que hizo Kafka es crear un ecosistema. El hecho de que Kafka se conecte de forma transparente a plataformas que van desde Spark streaming, Flink y Materialise hasta MongoDB y Clickhouse significa que Redpanda también lo hace.

Sin historias de migración de héroes, sin cambios de código, solo algunos cambios de configuración, y todo funciona, es la promesa. Eso definitivamente suena convincente para todos en la gran base instalada de Kafka. Redpanda ha publicado un punto de referencia que compara su plataforma con Kafka para respaldar las afirmaciones de un rendimiento superior.

Los casos de uso brownfield y greenfield de Redpanda incluyen Fintech, empresas de juegos y Adtech, fabricantes de automóviles eléctricos, el CDN más grande del mundo, algunos de los bancos más grandes, así como Alpaca y Snapchat.

Una característica que distingue a Redpanda, y Gallego cree que esto ayudó a incorporar nuevos usuarios a la transmisión, es el hecho de que viene en un solo archivo binario, sin dependencias externas de ningún tipo. Pero hay más. Para empezar, el hecho de que Redpanda esté implementado en C++. Esta es una historia que hemos visto antes: ScyllaDB vs. Cassandra viene a la mente.

apple-iphone-anillo.jpg

Redpanda se está enfocando en convertirse en el «Anillo Cero» de la transmisión de datos: tener un sistema de transmisión como fuente de verdad

Jorge Anadiotis

La premisa principal de Redpanda es: un motor simple, rápido y confiable con compatibilidad con Kafka. Pero Gallego optó por enfatizar algo más: unificado, lo que significa acceso unificado a los datos. Eso, dijo Gallego, permite a los desarrolladores crear una nueva categoría de aplicaciones que antes no podían crear:

“Para un desarrollador, tener una retención de datos ilimitada significa que no tiene que preocuparse por la recuperación ante desastres, y ahora tiene una copia de seguridad. No tiene que preocuparse a priori por qué otras bases de datos o sistemas posteriores necesita materializar. Simplemente introducen sus datos en Redpanda, y estamos aquí de forma transparente, y es relativamente rentable almacenar incluso petabytes de datos».

En lo que se está enfocando Redpanda, según Gallego, es en lo que llamó «Ring Zero»: tener un sistema de transmisión como fuente de la verdad, que no es un problema resuelto, pero Redpanda lo está abordando de frente. Sin embargo, también debemos tener en cuenta que hay algunas partes del rompecabezas de transmisión que los usuarios no encontrarán en Redpanda, a saber, el procesamiento complejo o una interfaz SQL.

Gallego divide el procesamiento posterior en procesamiento de flujo complejo y transformaciones simples. Las transformaciones simples, como enmascarar información privada y confidencial, se pueden hacer de manera más eficiente con Redpanda, afirmó Gallego. Esto se debe a que la transformación se realiza en Redpanda en lugar de enviarla a un motor externo como Flink o Spark.

Avanzando

En cuanto al procesamiento de secuencias complejas, ya sea SQL u otra cosa, Redpanda se basa en un ecosistema de socios. Gallego cree que tener empresas que se centren en capas específicas produce un mejor producto. Este principio también se extiende a cómo Redpanda aborda el aprendizaje automático en tiempo real.

Si bien Gallego cree que el aprendizaje automático en tiempo real está en aumento, no ve a Redpanda encajando en esta historia en la parte de los algoritmos de aprendizaje automático. Los TensorFlows y SparkMLs del mundo tienen eso cubierto, admite. Lo que Redpanda trae a la mesa es una válvula de contrapresión escalable que permite que se reproduzca el algoritmo de aprendizaje automático.

La detección de fraude es un ejemplo típico de aprendizaje automático en tiempo real. En un escenario en el que se detecta un sesgo en una solicitud de puntuación de crédito, sería necesario volver atrás y reprocesar todo el historial, y aquí es donde brilla Redpanda, dijo Gallego:

«Usar Redpanda significa que no tiene que cambiar su aplicación para poder reprocesar el historial completo de todos sus eventos que llevaron a esa decisión. Lo que realmente está creando es un nuevo motor de registro que permite que los algoritmos de aprendizaje automático reprocesar los datos, tener controles de acceso, tener un derrame de contrapresión en el disco en caso de que tenga una tonelada de carga».

En cuanto al futuro del procesamiento de datos en tiempo real, Gallego piensa en Kafka y su API como un artefacto histórico, de manera positiva. Los desarrolladores compraron el ecosistema y crearon millones de líneas de código, pero el futuro es una API diferente, piensa Gallego:

«Creo que el futuro es sin servidor. Creo que el futuro es un protocolo menos pesado que el protocolo Kafka. Creo que Redpanda es una empresa que puede brindarle a las personas tanto A como B. A es compatibilidad con este ecosistema enormemente rico que siempre está funcionando». importante, y B es porque estamos más atados a la evolución del mercado de lote a tiempo real.

Hoy resulta que la API de Kafka es la mejor manera de hacerlo. Pero creo que será una API diferente en el futuro, y será una API nueva que realmente está diseñada para la forma en que se crean las aplicaciones modernas. Así es como veo el arco argumental de Redpanda».

Eso suena como un enfoque que intenta casar el pragmatismo con la visión. Queda por ver hasta qué punto Redpanda puede hacer crecer su base de usuarios brownfield y greenfield, sin embargo, las señales de adopción parecen alentadoras, y el gesto de confianza de los inversores ayuda.

Con su última inyección de capital, Redpanda ha recaudado 76 millones de dólares hasta la fecha y planea hacer crecer sus equipos globales de ingeniería y comercialización a medida que se acelera la adopción por parte de los clientes. La empresa comenzó 2021 con poco menos de 20 empleados y finalizó el año con 60.

Deja un comentario