Logotipo de Zephyrnet

La evaluación comparativa de GoDaddy da como resultado una relación precio-rendimiento hasta un 24 % mejor para sus cargas de trabajo Spark con AWS Graviton2 en Amazon EMR Serverless | Servicios web de Amazon

Fecha:

Esta es una publicación invitada coescrita con Mukul Sharma, ingeniero de desarrollo de software, y Ozcan IIikhan, director de ingeniería de GoDaddy.

Ve papi empodera a los emprendedores cotidianos brindándoles toda la ayuda y herramientas para tener éxito en línea. Con más de 22 millones de clientes en todo el mundo, GoDaddy es el lugar al que acuden las personas para poner nombre a sus ideas, crear un sitio web profesional, atraer clientes y gestionar su trabajo.

GoDaddy es una empresa basada en datos y obtener información significativa de los datos nos ayuda a tomar decisiones comerciales para deleitar a nuestros clientes. En GoDaddy, nos embarcamos en un viaje para descubrir las promesas de eficiencia de Gravitón2 de AWS on Amazon EMR sin servidor como parte de nuestra visión a largo plazo de una informática inteligente rentable.

En esta publicación, compartimos la metodología y los resultados de nuestro ejercicio de evaluación comparativa que compara la rentabilidad de EMR Serverless en la arquitectura arm64 (Graviton2) con la arquitectura tradicional x86_64. EMR Serverless en Graviton2 demostró una ventaja en términos de rentabilidad, lo que resultó en ahorros significativos en los costos totales de ejecución. Logramos una mejora del 23.85 % en la relación precio-rendimiento para las cargas de trabajo Spark de producción de muestras, un resultado que encierra un enorme potencial para las empresas que se esfuerzan por maximizar su eficiencia informática.

Resumen de la solución

La plataforma informática inteligente de GoDaddy prevé la simplificación de las operaciones informáticas para todas las personas, sin limitar a los usuarios avanzados, para garantizar la optimización del rendimiento y los costos listos para usar para las cargas de trabajo de datos y aprendizaje automático. Como parte de esta visión, el equipo de plataforma de datos y aprendizaje automático de GoDaddy planea utilizar EMR Serverless como una de las soluciones informáticas internas.

El siguiente diagrama muestra una ilustración de alto nivel de la visión de la plataforma informática inteligente.

Evaluación comparativa de EMR sin servidor para GoDaddy

EMR Serverless es una opción sin servidor en EMR de Amazon eso elimina las complejidades de configurar, administrar y escalar clústeres cuando se ejecutan marcos de big data como Apache Spark y Apache Hive. Con EMR Serverless, las empresas pueden disfrutar de numerosos beneficios, incluida la rentabilidad, un aprovisionamiento más rápido, una experiencia de desarrollador simplificada y una mayor resistencia a las fallas de la zona de disponibilidad.

En GoDaddy, nos embarcamos en un estudio integral para comparar EMR Serverless utilizando flujos de trabajo de producción reales en GoDaddy. El propósito del estudio fue evaluar el rendimiento y la eficiencia de EMR Serverless y desarrollar un plan de adopción bien informado. Los resultados del estudio han sido extremadamente prometedores y muestran el potencial de EMR Serverless para nuestras cargas de trabajo.

Habiendo logrado resultados convincentes a favor de EMR Serverless para nuestras cargas de trabajo, nuestra atención se centró en evaluar la utilización de la arquitectura Graviton2 (arm64) en EMR Serverless. En esta publicación, nos centramos en comparar el rendimiento de Graviton2 (arm64) con la arquitectura x86_64 en EMR Serverless. Al realizar este análisis comparativo de manzanas con manzanas, nuestro objetivo es obtener información valiosa sobre los beneficios y consideraciones del uso de Graviton2 para nuestras cargas de trabajo de big data.

Al utilizar EMR Serverless y explorar el rendimiento de Graviton2, GoDaddy pretende optimizar sus flujos de trabajo de big data y tomar decisiones informadas sobre la arquitectura más adecuada para sus necesidades específicas. La combinación de EMR Serverless y Graviton2 presenta una oportunidad emocionante para mejorar las capacidades de procesamiento de datos e impulsar la eficiencia en nuestras operaciones.

Gravitón2 de AWS

Los procesadores Graviton2 están diseñados específicamente por AWS y utilizan potentes núcleos Arm Neoverse de 64 bits. Esta arquitectura personalizada proporciona un aumento notable en la relación precio-rendimiento para diversas cargas de trabajo en la nube.

En términos de coste, Graviton2 ofrece una ventaja atractiva. Como se indica en la siguiente tabla, el precio de Graviton2 es un 20 % más bajo en comparación con la opción de arquitectura x86.

   x86_64  arm64 (Gravitón2) 
por vCPU por hora $0.052624 $0.042094
por GB por hora $0.0057785 $0.004628
por GB de almacenamiento por hora* $0.000111

*Almacenamiento efímero: 20 GB de almacenamiento efímero están disponibles para todos los trabajadores de forma predeterminada; solo paga por cualquier almacenamiento adicional que configure por trabajador.

Para obtener detalles de precios específicos e información actual, consulte Precios de Amazon EMR.

Punto de referencia de AWS

El equipo de AWS realizó pruebas comparativas en cargas de trabajo Spark con Graviton2 en EMR Serverless utilizando las pruebas comparativas de rendimiento a escala TPC-DS de 3 TB. El resumen de su análisis es el siguiente:

  • Graviton2 en EMR Serverless demostró una mejora promedio del 10 % para las cargas de trabajo de Spark en términos de tiempo de ejecución. Esto indica que el tiempo de ejecución de las tareas basadas en Spark se redujo aproximadamente un 10 % al utilizar Graviton2.
  • Aunque la mayoría de las consultas mostraron un rendimiento mejorado, un pequeño subconjunto de consultas experimentó una regresión de hasta el 7 % en Graviton2. Estas consultas específicas mostraron una ligera disminución en el rendimiento en comparación con la opción de arquitectura x86.
  • Además del análisis de rendimiento, el equipo de AWS consideró el factor de costo. Graviton2 se ofrece a un costo un 20% menor que la opción de arquitectura x86. Teniendo en cuenta esta ventaja de costos, el conjunto de pruebas comparativas de AWS arrojó una relación precio-rendimiento general un 27 % mejor para las cargas de trabajo. Esto significa que al utilizar Graviton2, los usuarios pueden lograr una mejora del 27% en el rendimiento por unidad de costo en comparación con la opción de arquitectura x86.

Estos hallazgos resaltan los importantes beneficios de usar Graviton2 en EMR Serverless para cargas de trabajo Spark, con rendimiento mejorado y rentabilidad. Muestra el potencial de Graviton2 para ofrecer relaciones precio-rendimiento mejoradas, lo que lo convierte en una opción atractiva para las organizaciones que buscan optimizar sus cargas de trabajo de big data.

Punto de referencia de GoDaddy

Durante nuestra experimentación inicial, observamos que arm64 en EMR Serverless superó consistentemente o estuvo a la par con x86_64. Uno de los trabajos mostró un aumento del 7.51 % en el uso de recursos en arm64 en comparación con x86_64, pero debido al precio más bajo de arm64, aún así resultó en una reducción de costos del 13.48 %. En otro caso, logramos una impresionante reducción del 43.7 % en el costo de ejecución, atribuida tanto al precio más bajo como a la menor utilización de recursos. En general, nuestras pruebas iniciales indicaron que arm64 en EMR Serverless ofrecía una relación precio-rendimiento superior en comparación con x86_64. Estos hallazgos prometedores nos motivaron a realizar un estudio más completo y riguroso.

Resultados comparativos

Para obtener una comprensión más profunda del valor de Graviton2 en EMR Serverless, realizamos nuestro estudio utilizando cargas de trabajo de producción de la vida real de GoDaddy, que están programadas para ejecutarse con una cadencia diaria. Sin excepciones, EMR Serverless en arm64 (Graviton2) es significativamente más rentable en comparación con los mismos trabajos ejecutados en EMR Serverless en la arquitectura x86_64. De hecho, registramos una impresionante mejora del 23.85 % en la relación precio-rendimiento en los trabajos de muestra de GoDaddy que utilizan Graviton2.

Al igual que los puntos de referencia de AWS, observamos ligeras regresiones de menos del 5 % en el tiempo de ejecución total de algunos trabajos. Sin embargo, dado que estos trabajos se migrarán de Amazon EMR en EC2 a EMR Serverless, el tiempo de ejecución total seguirá siendo más corto debido al tiempo mínimo de aprovisionamiento en EMR Serverless. Además, en todos los trabajos, observamos una aceleración promedio del 2.1% además del ahorro de costos logrado.

Estos resultados de evaluación comparativa proporcionan evidencia convincente del valor y la eficacia de Graviton2 en EMR Serverless. La combinación de una relación precio-rendimiento mejorada, tiempos de ejecución más cortos y ahorros de costos generales hacen de Graviton2 una opción muy atractiva para optimizar cargas de trabajo de big data.

Metodología de evaluación comparativa

Como extensión de un estudio comparativo más amplio de EMR Serverless para GoDaddy, donde dividimos los trabajos de Spark en paréntesis según el tiempo de ejecución total (ejecución rápida, ejecución media, ejecución larga), medimos el efecto de la arquitectura (arm64 frente a x86_64) en costo total y tiempo de ejecución total. Todos los demás parámetros se mantuvieron iguales para lograr una comparación de manzanas con manzanas.

El equipo siguió estos pasos:

  1. Preparar los datos y el entorno.
  2. Elija dos trabajos de producción aleatorios de cada categoría de trabajo.
  3. Realice los cambios necesarios para evitar inferencias con los resultados de producción reales.
  4. Ejecute pruebas para ejecutar scripts en múltiples iteraciones para recopilar puntos de datos precisos y consistentes.
  5. Valide conjuntos de datos de entrada y salida, particiones y recuentos de filas para garantizar un procesamiento de datos idéntico.
  6. Reúna métricas relevantes de las pruebas.
  7. Analizar los resultados para extraer ideas y conclusiones.

La siguiente tabla muestra el resumen de un trabajo de Spark de ejemplo.

Métricos  EMR sin servidor (promedio) – X86_64  EMR sin servidor (promedio) – Graviton  X86_64 frente a Graviton (% de diferencia) 
Costo total de ejecución $2.76 $1.85 32.97%

Tiempo de ejecución total

(hh:mm:ss)

00:41:31 00:34:32 16.82%
Etiqueta de lanzamiento de EMR emr-6.9.0
Tipo de contratación Spark
Versión chispa Spark 3.3.0
Distribución de Hadoop Amazon 3.3.3
Versión de Hive/HCatalog Colmena 3.1.3, HCatalog 3.1.3

Resumen de Resultados

La siguiente tabla presenta una comparación del rendimiento del trabajo entre EMR Serverless en arm64 (Graviton2) y EMR Serverless en x86_64. Para cada arquitectura, cada trabajo se ejecutó al menos tres veces para obtener el costo y el tiempo de ejecución promedio precisos.

 Trabajos  Costo promedio x86_64 Costo promedio de arm64 Tiempo de ejecución promedio x86_64 (hh:mm:ss) Tiempo de ejecución promedio de arm64 (hh:mm:ss)  % de ahorro de costos promedio  % de ganancia de rendimiento promedio 
1 $1.64 $1.25 00:08:43 00:09:01 23.89% - 3.24%
2 $10.00 $8.69 00:27:55 00:28:25 13.07% - 1.79%
3 $29.66 $24.15 00:50:49 00:53:17 18.56% - 4.85%
4 $34.42 $25.80 01:20:02 01:24:54 25.04% - 6.08%
5 $2.76 $1.85 00:41:31 00:34:32 32.97% 16.82%
6 $34.07 $24.00 00:57:58 00:51:09 29.57% 11.76%
Normal  23.85% 2.10%

Tenga en cuenta que los cálculos de mejora se basan en resultados de mayor precisión para mayor precisión.

Conclusión

Según este estudio, GoDaddy observó una mejora significativa del 23.85 % en la relación precio-rendimiento para trabajos de producción de muestra de Spark que utilizan la arquitectura arm64 en comparación con la arquitectura x86_64. Estos convincentes resultados nos han llevado a recomendar encarecidamente a los equipos internos que utilicen arm64 (Graviton2) en EMR Serverless, excepto en los casos en los que existan problemas de compatibilidad con paquetes y bibliotecas de terceros. Al adoptar una arquitectura arm64, las organizaciones pueden lograr una mayor rentabilidad y rendimiento para sus cargas de trabajo, contribuyendo a un procesamiento y análisis de datos más eficientes.


Acerca de los autores

Mukul Sharma es ingeniero de desarrollo de software en una organización de datos y análisis (DnA) en GoDaddy. Es un programador políglota con experiencia en una amplia gama de tecnologías para ofrecer rápidamente soluciones escalables. Le gusta cantar karaoke, jugar varios juegos de mesa y trabajar en proyectos de programación personales en su tiempo libre.

Ozcan Ilikhan es director de ingeniería de datos y análisis (DnA) de la organización en GoDaddy. Le apasiona resolver los problemas de los clientes y aumentar la eficiencia utilizando datos y ML/AI. En su tiempo libre, le encanta leer, hacer senderismo, hacer jardinería y trabajar en proyectos de bricolaje.

Harsh Vardhan Singh Gaur es Arquitecto de Soluciones de AWS, especializado en análisis. Tiene más de 6 años de experiencia trabajando en el campo de big data y ciencia de datos. Le apasiona ayudar a los clientes a adoptar las mejores prácticas y descubrir información a partir de sus datos.

Ramesh Kumar Venkatraman es un arquitecto senior de soluciones en AWS y le apasionan los contenedores y las bases de datos. Trabaja con clientes de AWS para diseñar, implementar y administrar sus arquitecturas y cargas de trabajo de AWS. En su tiempo libre, le encanta jugar con sus dos hijos y practica cricket.

punto_img

Información más reciente

punto_img