Logotipo de Zephyrnet

Sun King utiliza el intercambio de datos de Amazon Redshift para acelerar el análisis de datos y mejorar la experiencia del usuario | Servicios web de Amazon

Fecha:

Esta publicación es coautora de Guillaume Saint-Martin en Sun King. 

Rey Sol es la empresa de energía solar fuera de la red líder en el mundo y tiene la misión de impulsar el acceso a vidas más brillantes a través de la energía solar fuera de la red. Sun King diseña, distribuye, instala y financia productos de energía solar para el hogar para personas que actualmente viven sin acceso confiable a la energía. Atiende a más de 100 millones de usuarios en 65 países de todo el mundo.

Más de 26,000 agentes en toda África ayudan hoy a las familias locales a obtener acceso a los productos fuera de la red de Sun King para tener una vida más productiva. Estos agentes reciben información casi en tiempo real para encontrar las áreas geográficas adecuadas y las familias que no tienen acceso a energía de bajo costo. Sun King se basa en datos para analizar áreas de crecimiento a lo largo de miles de kilómetros utilizando paneles impulsados ​​por Amazon Redshift.

En esta publicación, compartimos cómo usa Sun King Funciones de Amazon Redshift y Redshift como el intercambio de datos capacidades para mejorar el rendimiento de las consultas en Looker para más de 1,000 de nuestro personal.

Desplazamiento al rojo de Amazon es un almacén de datos en la nube escalable y totalmente administrado que acelera el tiempo para obtener información valiosa con análisis a escala rápidos, fáciles y seguros. Decenas de miles de clientes confían en Amazon Redshift para analizar exabytes de datos y ejecutar consultas analíticas complejas, lo que lo convierte en un almacén de datos en la nube ampliamente utilizado. Puede ejecutar y escalar análisis en segundos sobre todos sus datos sin tener que administrar su infraestructura de almacén de datos.

Caso de uso

Sun King utiliza un clúster aprovisionado por Redshift para ejecutar sus procesos de extracción, transformación y carga (ETL) y análisis para obtener y transformar datos de diversas fuentes. Luego proporciona acceso a estos datos a los usuarios comerciales a través de Looker. Amazon Redshift actualmente gestiona diversos requisitos de consumo para los usuarios de Looker en todo el mundo.

Amazon Redshift se utiliza para limpiar y agregar datos en tablas preprocesadas, ejecutar canalizaciones ETL de Sun King y procesar Looker "tablas derivadas persistentes” (PDT) programados con una frecuencia de una hora o menos. Estas canalizaciones de ETL y PDT eran cargas de trabajo que competían y, en ocasiones, se topaban con conflictos de lectura/escritura.

A medida que la empresa basada en datos continúa expandiéndose, Sun King necesitaba una solución que hiciera lo siguiente:

  • Permite que cientos de consultas se ejecuten en paralelo con el rendimiento de consulta deseado.
  • Optimice la gestión de cargas de trabajo para permitir que las cargas de trabajo de ETL, inteligencia empresarial (BI4) y Looker se ejecuten simultáneamente sin afectarse entre sí.
  • Escale la capacidad sin problemas con el aumento de la base de usuarios y mantenga la rentabilidad.

Resumen de la solución

A medida que los volúmenes de datos, el número de consultas y los usuarios continúan creciendo, Sun King decidió pasar de un solo clúster a una arquitectura de múltiples clústeres con intercambio de datos para aprovechar el aislamiento de la carga de trabajo y separar las cargas de trabajo de análisis y ETL en diferentes clústeres sin dejar de usar una sola copia de los datos.

La solución de Sun King se compone de múltiples clústeres aprovisionados de Redshift y un balanceador de carga de red de Amazon Elastic Compute Cloud (EC2), que utiliza la capacidad de intercambio de datos de Amazon Redshift.

Amazon Redshift Data Sharing permite el acceso a datos entre clústeres de Redshift sin tener que copiar ni mover datos. Por lo tanto, cuando una carga de trabajo se mueve de un clúster de Redshift a otro, la carga de trabajo puede continuar accediendo a los datos en el clúster de Redshift inicial. Para obtener más información, consulte Compartir datos de Amazon Redshift de forma segura entre clústeres de Amazon Redshift para el aislamiento de cargas de trabajo.

La solución consta de los siguientes componentes clave:

  • Clúster ETL central: Un clúster central de productores de ETL (8 nodos ra3.xlplus) con intercambio de datos.
  • Grupo de espectadores: Un clúster de productor/consumidor (8 nodos ra3.4xlarge) con datos compartidos para ejecutar lo siguiente:
    • Grandes procesos ETL
    • Procesos ETL (PDT) iniciados por Looker
    • Cargas de trabajo del equipo de datos
  • Clústeres de BI: consta de cuatro grandes grupos de consumidores (6 nodos ra3.4xlarge cada uno):
    • Tres clústeres que utilizan instancias reservadas (RI) que funcionan las 24 horas, los 7 días de la semana
    • Un clúster bajo demanda encendido durante seis horas todos los días de la semana
  • Balanceador de carga de red: Los equilibrador de carga de red distribuye consultas que se originan en Looker entre los grupos de consumidores
  • Nivel gratuito de escalamiento de simultaneidad: Cada uno de los tres clústeres que utilizan instancias reservadas (RI) produce una hora de créditos de escalamiento de simultaneidad por día, que se usan los lunes, mientras que el clúster bajo demanda produce cuatro horas de créditos de escalamiento de simultaneidad manteniendo el costo de escalamiento de simultaneidad en el nivel gratuito.

El siguiente diagrama muestra la solución y los pasos del flujo de trabajo.

Resultados

Sun King vio las siguientes mejoras con esta solución:

  • Rendimiento – La mejora en el rendimiento fue drástica e inmediata después de implementar la arquitectura distribuida de productor/consumidor. La mayoría de las consultas (95%) que antes tardaban entre 50 y 90 segundos en completarse, ahora tardan como máximo 40 segundos, el 75% de las consultas que antes tardaban hasta cinco segundos ahora tardan menos de un segundo. Además, la cantidad de consultas ejecutadas (adopción de Amazon Redshift) aumentó en un 40 %, impulsada por una mayor utilización de Looker luego del cambio de arquitectura.
  • Gestión de cargas de trabajo – Después de este cambio arquitectónico, las consultas ya no pasan mucho tiempo en cola. El siguiente gráfico ilustra las consultas en cola y en ejecución en uno de los clústeres antes y después de la participación de modernización.
  • Escalabilidad – Con esta arquitectura habilitada para compartir datos de Redshift, el equipo de datos de Sun King pudo devolver un rendimiento aceptable a sus usuarios, lo que generó un compromiso renovado, medido con la duplicación del número de consultas mensuales durante los meses siguientes, aumentando así la adopción. de Amazon Redshift en toda la empresa.

Se estima que los costos de Sun King solo aumentarán en un 35 %, al reservar la mayoría de las instancias utilizadas durante tres años (26 ra3.4xlarge y 8 ra3.xlplus) y confiar en el nivel gratuito de escalamiento de concurrencia para aumentar el rendimiento en el día de mayor utilización. . Esto se compara con la menor cantidad de clústeres reservados (8 ra3.4xlarge) y una utilización mucho mayor del escalamiento de simultaneidad (dos clústeres de escalamiento de simultaneidad, casi siempre activados). Esta modernización aumentó la productividad de los agentes al brindarles un acceso más rápido y casi en tiempo real a áreas que necesitan acceso a energía de bajo costo.

Conclusión:

En esta publicación, analizamos cómo Sun King utilizó las capacidades de intercambio de datos de Amazon Redshift para distribuir la carga de trabajo y escalar Amazon Redshift para abordar los requisitos de rendimiento del usuario final de Looker y mantener el control sobre el costo del consumo de Amazon Redshift. Pruebe los enfoques discutidos en esta publicación y háganos saber sus comentarios en los comentarios.


Sobre los autores

Guillaume Saint-Martin lidera el equipo de datos y análisis de Sun King. Con 10 años de experiencia en los sectores de datos y desarrollo, dirige un equipo de más de 30 analistas, ingenieros de datos y científicos de datos para respaldar el modelado a largo plazo y el análisis de tendencias de Sun King.

Aaber Jah es un especialista sénior en análisis en AWS con sede en Chicago, Illinois. Se centra en impulsar y mantener el valor empresarial de AWS Data Analytics para los clientes.

Rohit Vashishta es un arquitecto senior de soluciones especializado en análisis en AWS con sede en Dallas, Texas. Tiene más de 17 años de experiencia diseñando, construyendo, liderando y manteniendo plataformas de big data. Rohit ayuda a los clientes a modernizar sus cargas de trabajo analíticas utilizando la variedad de servicios de AWS y garantiza que los clientes obtengan la mejor relación precio/rendimiento con la máxima seguridad y gobernanza de datos.

punto_img

Información más reciente

punto_img