AWS declara que es Iceberg hasta que los clientes digan lo contrario

Como
Gustó

Fecha:

Nodo: 4228238

AWS apostó por el formato de tabla abierta (OTF) Apache Iceberg en su conjunto de análisis, aprendizaje automático y almacenamiento como respuesta concertada a la demanda de los clientes que ya utilizan su popular almacenamiento de objetos S3.

Si bien existe un consenso creciente en torno a Iceberg, aún quedan dudas sobre el futuro de su OTF rival Delta Lake, creado por Databricks y convertido en código abierto bajo la administración de la Fundación Linux, y actualmente el formato elegido entre los gigantes del software Microsoft y SAP.

Pero para el proveedor de plataformas en la nube más grande del mundo, todo está cerrado en Iceberg hasta que los clientes de su servicio S3 digan lo contrario.

La importancia de la postura se debe a un par de hechos. S3 disfruta de alrededor de 23 porcentaje de cuota de mercado en el mercado global de software de almacenamiento de datos empresariales y AWS es se prevé que genere 105 mil millones de dólares en ingresos anuales, lo que lo convierte, por lejos, en el mayor proveedor de infraestructura en la nube.

La importancia de Iceberg también está marcada por la decisión de Databricks de pagar 1 millones de dólares (tal vez $2 mil millones) para Tabular, la compañía fundada por los autores originales de Iceberg, sin siquiera tener en sus manos la tecnología, que es de código abierto.

Andy Warfield, vicepresidente de AWS e ingeniero distinguido, dijo: El registro:“Estamos trabajando directamente con Iceberg. Tenemos colaboradores principales en la pila de código abierto de Iceberg, por lo que AWS es un colaborador activo de Iceberg, donde estamos dando forma a las API y trabajando con otras personas que trabajan en Iceberg. Realmente hemos ido [en esa] dirección, como lo hacemos con todo, porque es lo que vimos que hacían nuestros clientes de análisis más importantes en S3.

“Si los clientes nos llevan en diferentes direcciones, obviamente exploraremos la posibilidad de agregar soporte para esas cosas. Pero por ahora, Iceberg ha surgido como una dirección realmente atractiva en términos de diseño, pero también una dirección popular y bien respaldada para construir este tipo de soporte estructurado para el almacenamiento”.

A finales del año pasado, AWS Se anunciaron las tablas S3, un nuevo tipo de contenedor de almacenamiento que Warfield describió como "una tabla Iceberg administrada. Proporciona un catálogo Iceberg, en el que los usuarios pueden crear espacios de nombres y tablas, cada tabla es un recurso de primera clase. Los usuarios pueden acceder a la política de control y la política de seguridad en la propia tabla".

AWS dijo anteriormente que, debido a que el depósito estaba preparticionado, ofrecería un aumento de rendimiento de 10 veces para el acceso. AWS también ejecuta automáticamente todas las tareas de mantenimiento y optimización en segundo plano.

El iceberg se originó en 2015 cuando Netflix completó su migración de un almacén de datos y una pila de análisis locales a uno basado en el almacenamiento de objetos AWS S3, que intentó consultar a través de Hive Tables hasta que encontró problemas de rendimiento y "algunos comportamientos muy sorprendentes".

Los desafíos llevaron al equipo a desarrollar el formato de tabla abierta Iceberg, diseñado para cargas de trabajo analíticas a gran escala y compatible con motores de consulta como Spark, Trino, Flink, Presto, Hive e Impala. Prometía ayudar a las organizaciones a incorporar el motor de análisis de su elección a sus datos sin tener que afrontar los gastos y los inconvenientes de trasladarlo a un nuevo almacén de datos. Iceberg fue donado a la Apache Software Foundation como un proyecto de código abierto en noviembre de 2018. Desde principios de 2022, ha obtenido el apoyo vocal de los grandes almacenes y lagos de datos, como Google, Snowflake y Cloudera.

En 2023, AWS hizo su primer anuncio público sobre Iceberg, mostrando una vista previa del soporte para permitir a los usuarios emplear su almacén de datos nativo de la nube, Redshift, para ejecutar consultas analíticas en tablas Iceberg en lagos de datos externos, pero solo si eran tablas nuevas, no tablas convertidas de Parquet a Iceberg.

Warfield dijo que el interés en Iceberg comenzó a crecer hace unos tres años, cuando los usuarios de S3 y AWS se enfrentaron al problema de crear una representación de datos similar a una base de datos en S3. Lo solucionaron separando columnas y creando una representación en los llamados grupos de filas, evitando tener que consultar todo el archivo. Si bien el enfoque generó beneficios, también tuvo un costo.

“De esa manera, Parquet mejoró mucho”, dijo Warfield. “Obtuvimos una representación de datos mucho más amigable con las bases de datos, pero como S3 es inmutable, una vez que escribías tu tabla en Parquet, no podías hacer ninguna de las cosas que la gente estaba acostumbrada a hacer con las bases de datos en términos de mutaciones. No podías actualizarla. Y, en el mejor de los casos, lo que veíamos, hasta hace tres años, antes de la introducción de los OTF, era que los datos eran totalmente estáticos y la gente los anexaba agregando archivos Parquet adicionales”.

Iceberg y otros OTF agregan una capa de metadatos a las estructuras de Parquet. Iceberg crea un nodo raíz que apunta a la vista actual de la tabla almacenando metadatos nuevos, generalmente como archivos JSON. Un nuevo nodo raíz puede actuar como una actualización atómica de la base de datos, ya que mueve la vista de la tabla que el cliente ve de los datos.

“Puedes hacer estas actualizaciones relativamente pequeñas, pero haces que la tabla sea completamente mutable”, dijo Warfield. “Hace dos años, esas conversaciones con los clientes pasaron de simplemente jugar a Parquet, a veces con Hive como metatienda encima, a realmente probar y hacer cosas con Iceberg”.

La materialización del enfoque de AWS hacia Iceberg se produce con S3 Tables, pero también en Sagemaker, la plataforma de aprendizaje automático, que se ha reposicionado para dar cabida a algunos aspectos del almacenamiento de datos, el análisis y los lagos de datos.

"Desde la perspectiva del equipo de almacenamiento de S3, están muy entusiasmados con S3 Tables porque cualquiera que tenga estos datos altamente estructurados y los coloque aquí de repente obtiene la capacidad de trabajar con ellos desde básicamente cualquier herramienta de análisis o aprendizaje automático y también desde sus propias aplicaciones. Y desde la perspectiva de Sagemaker, la compatibilidad con las API de Iceberg significa que ahora pueden trabajar no solo con S3 y S3 Tables, sino también con cualquier dato que esté almacenado en Iceberg en cualquier lugar", dijo Warfield.

Dado que Snowflake, Google y otros proveedores también se han sumado a Iceberg, la medida promete facilitar la integración con proyectos que ya se han iniciado con otras tecnologías. También tiene implicaciones para Redshift de AWS, en el que los clientes han estado desarrollando proyectos durante más de diez años.

El almacén de datos de AWS tiene su propio enfoque de almacenamiento (Redshift Managed Storage, RMS), que según Warfield fue el intento del proveedor de la nube de resolver algunos de los problemas que también abordan los OTF. Con el catálogo Sagemaker Lakehouse, estos datos estarán abiertos a un conjunto más amplio de herramientas de análisis fuera del portafolio de AWS, siempre que sean compatibles con las API de Iceberg.

“Con la introducción de la compatibilidad con el catálogo Iceberg REST dentro del catálogo Sagemaker Lakehouse, el equipo de análisis ha abierto la posibilidad de que cualquier plataforma de análisis acceda a RMS, lo que supone una gran mejora en cuanto a flexibilidad y acceso a esos datos. Por el contrario, Redshift, a través del catálogo Iceberg REST, puede funcionar con cualquier almacenamiento Iceberg”, afirmó.

Al adoptar Iceberg en su cartera de almacenamiento, análisis y aprendizaje automático, AWS está haciendo su parte para impulsar a Iceberg hacia el cumplimiento de su promesa inicial.

“Todo esto está impulsado por la voz contundente de muchos de nuestros clientes que realizan análisis. Tienen datos en todo tipo de lugares y tienen equipos que tienen preferencias por diferentes herramientas. Hay una gran cantidad de nuevas adopciones y una gran inversión por parte de los usuarios para asegurarse de que cualquier herramienta funcione con cualquier dato y que cualquier dato esté disponible para todas las herramientas”, dijo Warfield.

Aún quedan dudas sobre el enfoque de Microsoft en su plataforma Fabric. El omnipresente proveedor promete un cierto grado de integración con Iceberg, Aunque Delta seguirá teniendo su formato de mesa nativo.

Databricks ha hablado sobre Intentando fusionar Delta y Iceberg, lo que admite que podría llevar algunos años y, en cualquier caso, dependería de la gobernanza de Iceberg por parte de Apache, que Databricks no controla.

Un ex gerente de ingeniería de software de Apple, donde se dice que Iceberg está presente de principio a fin, dijo que adoptar Iceberg como el estándar de facto, en lugar de fusionar los dos estándares, sería una mejor opción. Russel Spitzer, miembro de PMC y colaborador de Iceberg, quien recientemente se unió a Snowflake como ingeniero principal, dijo El registro En octubre, esperaba que todos los proveedores utilizaran Iceberg bajo el capó para eliminar los formatos de tabla como un punto de diseño.

Warfield dijo que AWS habló con Databricks porque construye sistemas sobre S3 y estaba trabajando para garantizar que todos los datos que los usuarios tienen en cualquiera de estas plataformas de análisis estén disponibles para todos y puedan funcionar en todos los sistemas.

Pero desde que el gigante de la nube renovó su compromiso con Iceberg, la pelota sigue firmemente en la cancha de Databrick. ®

Artículos relacionados

punto_img

Artículos Recientes

punto_img