Logotipo de Zephyrnet

Habilite implementaciones Multi-AZ para su almacén de datos de Amazon Redshift

Fecha:

Desplazamiento al rojo de Amazon es un almacén de datos en la nube a escala de petabytes totalmente administrado que le permite analizar grandes conjuntos de datos utilizando SQL estándar. Las cargas de trabajo del almacén de datos se utilizan cada vez más con aplicaciones de análisis críticas para el negocio que requieren los niveles más altos de disponibilidad y resiliencia. Amazon Redshift es un almacén de datos basado en la nube que ya admite muchas capacidades de recuperación para abordar interrupciones imprevistas y minimizar el tiempo de inactividad. Los tipos de instancias de Amazon Redshift RA3 almacenan sus datos en Redshift Managed Storage (RMS), que está respaldado por Servicio de almacenamiento simple de Amazon (Amazon S3), que es altamente disponible y duradero de forma predeterminada. Amazon Redshift también admite copias de seguridad automáticas que se pueden usar para recuperar un almacén de datos, la reparación automática de fallas y la capacidad de reubicar un clúster a otra zona de disponibilidad sin cambios en las aplicaciones. Aunque muchos clientes se benefician de estas características, los clientes de almacenamiento de datos empresariales requieren un RTO bajo y una mayor disponibilidad para respaldar la continuidad de su negocio con un impacto mínimo en las aplicaciones.

Amazon Redshift ahora admite implementaciones Multi-AZ (versión preliminar) para clústeres RA3 aprovisionados. Las implementaciones Multi-AZ admiten la ejecución de su almacén de datos en múltiples zonas de disponibilidad simultáneamente y pueden continuar operando en escenarios de fallas imprevistas. Una implementación Multi-AZ está destinada a clientes con aplicaciones analíticas críticas para el negocio que requieren los niveles más altos de disponibilidad y resistencia.

Una implementación de Redshift Multi-AZ aprovecha los recursos informáticos en múltiples AZ para escalar el procesamiento de la carga de trabajo del almacén de datos. En situaciones donde hay un alto nivel de simultaneidad, Redshift aprovechará automáticamente los recursos en ambas zonas de disponibilidad para escalar la carga de trabajo para las solicitudes de lectura y escritura mediante el procesamiento activo-activo.

En esta publicación, mostramos cómo configurar una implementación de Amazon Redshift Multi-AZ en varias zonas de disponibilidad.

Resumen de la solución

Proporcionamos un tutorial sobre cómo realizar una implementación Multi-AZ para un clúster de Amazon Redshift mediante el Consola de administración de AWS. También proporcionamos un tutorial sobre cómo probar la tolerancia a fallas de un almacén de datos Multi-AZ de Amazon Redshift y monitorear las consultas en su implementación Multi-AZ.

Implementación Single-AZ vs. Multi-AZ

Amazon Redshift requiere un grupo de subred de clúster para crear un clúster en su VPC. El grupo de subredes del clúster incluye información sobre el ID de VPC y una lista de subredes en su VPC. Cuando lanza un clúster, Amazon Redshift crea un grupo de subred de clúster predeterminado automáticamente o usted elige un grupo de subred de clúster de su elección para que Amazon Redshift pueda aprovisionar su clúster en una de las subredes de la VPC. Puede configurar su grupo de subredes de clúster para agregar subredes de diferentes zonas de disponibilidad que desea que Amazon Redshift use para la implementación de clústeres.

Todos los clústeres de Amazon Redshift en la actualidad se crean y se ubican en una zona de disponibilidad particular dentro de una región de AWS y, por lo tanto, se denominan implementaciones Single-AZ. Para una implementación Single-AZ, Amazon Redshift selecciona la subred de una de las zonas de disponibilidad dentro de una región e implementa el clúster allí. Puede elegir una zona de disponibilidad para la implementación y Amazon Redshift implementará su clúster en la zona de disponibilidad elegida en función de las subredes proporcionadas.

Por otro lado, una implementación multi-AZ se aprovisiona en múltiples zonas de disponibilidad simultáneamente. Para una implementación Multi-AZ, Amazon Redshift selecciona automáticamente dos subredes de dos zonas de disponibilidad diferentes e implementa la misma cantidad de nodos informáticos en cada zona de disponibilidad. Todos estos nodos de cómputo se utilizan a través de un único punto final, ya que los nodos de cómputo de ambas zonas de disponibilidad se usan para el procesamiento de la carga de trabajo. 

Como se muestra en los siguientes diagramas, Amazon Redshift implementa un clúster en una sola zona de disponibilidad para la implementación de Single-AZ y varias zonas de disponibilidad para la implementación de Multi-AZ.

Recuperación automática de la implementación multi-AZ

En el improbable caso de que se produzca un error en la zona de disponibilidad, las implementaciones de Amazon Redshift Multi-AZ continúan sirviendo sus cargas de trabajo mediante el uso automático de recursos en la otra zona de disponibilidad. No es necesario que realice ningún cambio en la aplicación para mantener la continuidad del negocio durante las interrupciones imprevistas, ya que se accede a una implementación multi-AZ como un único almacén de datos con un punto final. Las implementaciones de Amazon Redshift Multi-AZ están diseñadas para garantizar que no haya pérdida de datos, y puede consultar todos los datos comprometidos hasta el punto de falla.

Como se muestra en el siguiente diagrama, si hay un evento improbable que hace que los nodos de cómputo en AZ1 fallen, entonces una implementación multi-AZ se recupera automáticamente para usar los recursos de cómputo en AZ2. Amazon Redshift también aprovisionará automáticamente nodos informáticos idénticos en otra zona de disponibilidad (AZ3) para continuar operando simultáneamente en dos zonas de disponibilidad (AZ2 y AZ3).

Implementación de varias zonas de disponibilidad Implementación de Multi AZ después de la recuperación automática

La implementación de Amazon Redshift Multi-AZ no solo se usa para la protección contra la posibilidad de fallas en la zona de disponibilidad, sino que también puede maximizar el rendimiento de su almacén de datos mediante la distribución automática del procesamiento de la carga de trabajo en varias zonas de disponibilidad. Una implementación Multi-AZ siempre procesará una consulta individual utilizando recursos informáticos solo de una zona de disponibilidad, pero puede distribuir automáticamente el procesamiento de varias consultas simultáneas a ambas zonas de disponibilidad para aumentar el rendimiento general de las cargas de trabajo de alta simultaneidad.

Es una buena práctica configurar reintentos automáticos en sus procesos y tableros de extracción, transformación y carga (ETL) para que el clúster pueda volver a emitirlos y atenderlos en la zona de disponibilidad secundaria cuando ocurra una falla improbable en la zona de disponibilidad principal. Si se interrumpe una conexión, se puede volver a intentar o restablecer inmediatamente. Además, se anularán las consultas y las cargas que se estaban ejecutando en la zona de disponibilidad fallida. Las nuevas consultas emitidas en o después de que ocurra una falla pueden experimentar retrasos en la ejecución mientras se recupera el almacén de datos multi-AZ a una configuración de dos AZ.

Cree una nueva implementación Multi-AZ desde la consola

Puede crear fácilmente nuevas implementaciones multi-AZ a través de la consola de Amazon Redshift. Amazon Redshift implementará la misma cantidad de nodos en cada una de las dos zonas de disponibilidad para una implementación Multi-AZ. Todos los nodos de una implementación multi-AZ pueden realizar el procesamiento de carga de trabajo de lectura y escritura durante el funcionamiento normal. Una implementación Multi-AZ solo admitirá clústeres RA3 aprovisionados.

Siga estos pasos para crear un clúster aprovisionado de Amazon Redshift en varias zonas de disponibilidad:

  1. En la consola de Amazon Redshift, en el panel de navegación, elija Clusters.
  2. Aparece un cartel en la Clusters página de lista que introduce el modo de vista previa. Elige el botón Crear clúster de vista previa para abrir la página de creación de clústeres.
  3. Vista previa de la pista, escoger vista previa_2022.
  4. Recomendamos ingresar un nombre para el clúster que indique que está en una pista de vista previa. Elija opciones para su clúster, incluidas las opciones etiquetadas como -avance, para las características que desea probar.

Para obtener información general sobre la creación de clústeres, consulte Crear un clúster.

  1. Elija uno de los tipos de nodos RA3 en la Tipo de nodo Menú desplegable. La opción de implementación Multi-AZ solo está disponible cuando elige un tipo de nodo RA3.
  2. Implementación Multi-AZ, seleccione .
  3. Número de nodos por AZ, ingrese la cantidad de nodos que necesita para su clúster.

crear un clúster de vista previa

  1. Bajo la Configuraciones de base de datos, escoger nombre de usuario administrador y Contraseña de usuario administrador.
  2. torre Usar valores predeterminados al lado de Configuraciones adicionales para modificar la configuración predeterminada.
  3. under red y seguridad, especifique lo siguiente:
    1. Nube privada virtual (VPC), elija la VPC en la que desea implementar el clúster.
    2. Grupos de seguridad de VPC, déjelo como predeterminado o agregue los grupos de seguridad de su elección.
    3. Grupo de subred de clúster, déjelo como predeterminado o agregue un grupo de subred de clúster de su elección. Para una implementación Multi-AZ, un grupo de subredes de clúster debe incluir una subred cada una de al menos tres o más zonas de disponibilidad diferentes.

Para obtener información general sobre la administración de grupos de subredes de clúster, consulte Grupos de subredes de clúster

configuraciones adicionales

  1. under Configuración de la base, Para puerto de base de datos, utiliza el valor predeterminado 5439 o elige un valor del rango de 5431–5455 y 8191–8215.
  2. under Configuración de la base, En la Cifrado de base de datos sección, para usar un personalizado Servicio de administración de claves de AWS (AWS KMS) que no sea la clave KMS predeterminada, elija Personalizar la configuración de cifrado. Esta opción está deseleccionada por defecto.
  3. under Elija una clave de AWS KMS, puede elegir una clave KMS existente o elegir Crear una clave de AWS KMS para crear una nueva clave KMS.

Para obtener más información sobre cómo crear una clave mediante KMS, consulte Creando llaves.

  1. Elige Crear clúster.

Cuando la creación del clúster se realiza correctamente, puede ver los detalles en la página de detalles del clúster.

under Información general, puedes ver Multi-AZ as .

informacion general

En Propiedades pestaña, debajo Configuración de red y seguridad, puede encontrar los detalles en la zona de disponibilidad principal y secundaria.

configuración de red y seguridad

Convierta una implementación Single-AZ en una implementación Multi-AZ

Para convertir una implementación Single-AZ existente en una implementación Multi-AZ, puede restaurar desde una instantánea para configurarla en un almacén de datos Multi-AZ. Al migrar a una implementación Multi-AZ desde una implementación Single-AZ existente, mantener el rendimiento de una sola consulta puede requerir que se aprovisione la misma cantidad de nodos utilizados en la implementación Single-AZ actual en ambas zonas de disponibilidad, lo que resulta en una duplicación de la cantidad. de nodos de clúster necesarios al migrar a Multi-AZ para garantizar que se mantenga el rendimiento de una sola consulta.

Complete los siguientes pasos para crear una implementación Multi-AZ restaurada desde una instantánea:

  1. En la consola de Amazon Redshift, en el panel de navegación bajo Clusters, escoger Snapshots.
  2. Seleccione la instantánea a utilizar.
  3. La instantánea debe cifrarse para poder restaurar a una implementación Multi-AZ.
  4. En Restaurar instantánea menú, seleccione Restaurar al clúster aprovisionado.

restaurar instantánea

  1. Elija el Modo de vista previa.
  2. Vista previa de la pista, escoger vista previa_2022
  3. Recomendamos ingresar un nombre para el clúster que indique que está en una pista de vista previa. Elija opciones para su clúster, incluidas las opciones etiquetadas como -avance, para las características que desea probar.

Para obtener información general sobre la creación de clústeres, consulte Crear un clúster.

  1. Asegúrese de elegir uno de los tipos de nodos RA3 en la Tipo de nodo Menú desplegable. La opción de implementación Multi-AZ solo está disponible cuando elige un tipo de nodo RA3.
  2. Implementación Multi-AZ, seleccione .
  3. Número de nodos por AZ, ingrese la cantidad de nodos que necesita para su clúster.

identificador de clúster

  1. Desplácese hacia abajo hasta Configuraciones adicionales, expandir red y seguridad, asegúrese de aceptar el valor predeterminado para Grupo de subred de clúster o elige otro de tu preferencia. Para una implementación Multi-AZ, un grupo de subredes de clúster debe incluir una subred cada una de al menos tres o más zonas de disponibilidad diferentes.
  2. under Configuraciones adicionales, expandir Configuraciones de base de datos.
  3. under Cifrado de base de datos, para usar una clave KMS personalizada que no sea la clave KMS predeterminada, elija Personalizar la configuración de cifrado. Esta opción está deseleccionada por defecto.
  4. under Elija una clave de AWS KMS, puede elegir una clave KMS o ingresar un ARN. O bien, puede elegir Cree una clave del servicio de administración de claves de AWS para crear una clave.

configuraciones de base de datos

  1. Elige Restaurar clúster desde una instantánea.

Cuando la restauración del clúster se realiza correctamente, puede ver los detalles en la página de detalles del clúster.

Pruebe la tolerancia a fallas de su almacén de datos multi-AZ

Puede probar la tolerancia a fallas de su implementación de Amazon Redshift Multi-AZ inyectando una falla que hace que los nodos de cómputo en una zona de disponibilidad dejen de estar disponibles. Amazon Redshift detecta este evento y activa una recuperación automática. Cuando el clúster se recupera correctamente, la implementación Multi-AZ está disponible. Su implementación Multi-AZ también aprovisiona automáticamente nuevos nodos de cómputo en otra zona de disponibilidad tan pronto como esté disponible.

Probemos la tolerancia a fallas de la implementación de Amazon Redshift Multi-AZ.

  1. En la consola de Amazon Redshift, elija Clusters en el panel de navegación.
  2. Vaya a la página de detalles del clúster
  3. En Acciones menú, seleccione Error de inyección (versión preliminar pública).

menú de acciones

  1. Cuando se le solicite, elija Confirmar.

error de inyección (versión preliminar pública)

Después de que el clúster vuelva a Available estado, puede observar que las zonas de disponibilidad principal y secundaria han cambiado.

La siguiente captura de pantalla muestra el estado antes de la falla de inyección.

La siguiente captura de pantalla muestra el estado después de la falla de inyección.

Supervisar consultas para implementaciones Multi-AZ

Una implementación Multi-AZ utiliza recursos informáticos que se implementan en ambas zonas de disponibilidad y puede seguir funcionando en caso de que los recursos de una zona de disponibilidad determinada no estén disponibles. Todos los recursos informáticos se utilizan en todo momento, lo que permite un funcionamiento completo en dos zonas de disponibilidad tanto en operaciones de lectura como de escritura.

Puedes consultar SYS_ vistas en el pg_catalog esquema para monitorear ejecuciones de consultas Multi-AZ. los SYS_ las vistas cubren las actividades de ejecución de consultas y las estadísticas de los clústeres primario y secundario.

Las siguientes son las tablas del sistema en el SYS_ ver lista:

Siga estos pasos para monitorear la ejecución de la consulta en la implementación Multi-AZ desde la consola de Amazon Redshift:

  1. En la consola de Amazon Redshift, conéctese a la base de datos en su implementación Multi-AZ y ejecutar consultas a través del editor de consultas.
  2. Ejecute cualquier consulta de muestra en la implementación Multi-AZ Redshift.
  3. Para una implementación Multi-AZ, puede identificar una consulta y la zona de disponibilidad donde se ejecuta (ejecutándose en el clúster principal o en la zona de disponibilidad secundaria) mediante el compute_type columna en el SYS_QUERY_HISTORY mesa. Los valores válidos para el compute type columna son las siguientes:
    1. primario – Cuando se ejecuta en la zona de disponibilidad principal en la implementación Multi-AZ.
    2. secundario – Cuando se ejecuta en una zona de disponibilidad secundaria en la implementación Multi-AZ.

La siguiente es una consulta de muestra usando el compute_type columna para monitorear una consulta:

dev=# select (compute_type) as compute_type, left(query_text, 50) query_text from sys_query_history order by start_time desc; compute_type | query_text
--------------+---------------------------------------------------- secondary | select count(*) from t1;

También puede acceder al historial de consultas desde la consola para analizar el diagnóstico de su consulta.

  1. En Seguimiento de consultas pestaña, elegir Conéctese a la base de datos.

seguimiento de consultas

  1. Autenticación, escoger Credenciales temporales
  2. Nombre de la base de datos, ingrese el nombre de la base de datos (por ejemplo, dev).
  3. usuario de la base de datos, introduzca el nombre de usuario de la base de datos (por ejemplo, awsuser).
  4. Elige Contacto.

conectarse a la base de datos

Después de estar conectado, en Supervisión de consultas, En la Pestaña de historial de consultas, puede ver todas las consultas y cargas, como se muestra en la siguiente captura de pantalla.

consultas y cargas

under Filtros métricos, puede utilizar los diversos filtros en el Opciones de filtrado adicionales sección para ver el historial de consultas basado en Intervalo de tiempo, Usuarios, Bases de datoso comandos SQL.

filtros métricos

Existen algunas limitaciones al trabajar con Amazon Redshift Multi-AZ en modo de vista previa, consulte esta página por las limitaciones.

Valoración de los clientes

Janssen Pharmaceuticals, una subsidiaria de Johnson & Johnson, investiga y fabrica medicamentos con un enfoque en las necesidades cambiantes de los pacientes y la industria de la salud.

“Janssen Pharmaceutical utiliza Amazon Redshift para habilitar conocimientos críticos que impulsan decisiones comerciales importantes para nuestros científicos de datos, administradores de datos, usuarios comerciales y partes interesadas externas. Con Amazon Redshift Multi-AZ, podemos estar seguros de que nuestro almacén de datos siempre estará disponible sin interrupciones que puedan afectar nuestra capacidad para tomar decisiones comerciales críticas”.

– Shyam Mohapatra, director de tecnología de la información – Janssen Pharmaceutical Companies of Johnson & Johnson

Conclusión

Esta publicación demostró cómo configurar una implementación de Amazon Redshift Multi-AZ en varias zonas de disponibilidad y probar la tolerancia a fallas de sus cargas de trabajo durante una falla poco probable de una zona de disponibilidad. La implementación de Amazon Redshift Multi-AZ también ayuda a mejorar el rendimiento general de su almacén de datos porque los nodos de cómputo en ambas zonas de disponibilidad se usan para operaciones de lectura y escritura. El almacén de datos Amazon Redshift Multi-AZ ayuda a satisfacer las demandas de los clientes con aplicaciones de análisis críticas para el negocio que requieren los niveles más altos de disponibilidad y resiliencia.

Para más detalles, consulte Configuración de la implementación Multi-AZ.


Acerca de los autores

Ranjan birmano es un arquitecto de soluciones especialista en análisis en AWS. Se especializa en Amazon Redshift y ayuda a los clientes a crear soluciones analíticas escalables. Tiene más de 16 años de experiencia en diferentes tecnologías de bases de datos y almacenamiento de datos. Le apasiona automatizar y resolver los problemas de los clientes con soluciones en la nube.

jeff sosa lidera el equipo de administración de productos de Redshift responsable de la plataforma central de computación y almacenamiento de redshift, disponibilidad, respaldo/recuperación y áreas de recuperación ante desastres. Jeff ha estado en AWS durante más de 3 años y se ha centrado en el almacenamiento y el procesamiento de sistemas distribuidos a gran escala a lo largo de su carrera de 20 años en la gestión de productos.

Saurav Das forma parte del equipo de gestión de productos de Amazon Redshift. Tiene más de 16 años de experiencia trabajando con tecnologías de bases de datos relacionales y protección de datos. Tiene un profundo interés en resolver los desafíos de los clientes centrados en la alta disponibilidad y la recuperación ante desastres.

Anusha Challa es un arquitecto sénior de soluciones especialista en análisis centrado en Amazon Redshift. Ha ayudado a muchos clientes a crear soluciones de almacenamiento de datos a gran escala en la nube y en las instalaciones. Le apasiona el análisis de datos y la ciencia de datos.

Nita Shah es un arquitecto de soluciones especialista en análisis en AWS con sede en Nueva York. Ha estado creando soluciones de almacenamiento de datos durante más de 20 años y se especializa en Amazon Redshift. Se enfoca en ayudar a los clientes a diseñar y construir plataformas de análisis y soporte de decisiones bien diseñadas a escala empresarial.

Suresh Patnam es un líder principal de BDM – GTM AI/ML en AWS. Trabaja con los clientes para crear una estrategia de TI, haciendo que la transformación digital a través de la nube sea más accesible mediante el uso de datos y AI/ML. En su tiempo libre, a Suresh le gusta jugar al tenis y pasar tiempo con su familia.

punto_img

Información más reciente

punto_img