Logotipo de Zephyrnet

Novedades de Amazon Redshift: 2022, un año en revisión

Fecha:

In 2021 y 2020, te contamos las novedades de Desplazamiento al rojo de Amazon que hacen que sea más fácil, rápido y rentable analizar todos sus datos y encontrar información rica y poderosa. En 2022, nos complace informar que el equipo de Amazon Redshift estuvo trabajando arduamente. Trabajamos a partir de los requisitos del cliente y anunciamos múltiples funciones nuevas para que sea más fácil, rápido y rentable analizar todos sus datos. Esta publicación cubre algunas de estas nuevas funciones.

En AWS, para datos y análisis, nuestra estrategia es brindarle una arquitectura de datos moderna eso lo ayuda a liberarse de los silos de datos; tener servicios de datos, análisis, aprendizaje automático (ML) e inteligencia artificial especialmente diseñados para usar la herramienta adecuada para el trabajo correcto; y tener servicios abiertos, gobernados, seguros y completamente administrados para que los análisis estén disponibles para todos. Dentro de la arquitectura de datos moderna de AWS, Amazon Redshift como almacén de datos en la nube sigue siendo un componente clave, lo que le permite ejecutar análisis de SQL complejos a escala y rendimiento en terabytes a petabytes de datos estructurados y no estructurados, y hacer que la información esté ampliamente disponible a través de inteligencia comercial popular ( BI) y herramientas de análisis. Continuamos trabajando hacia atrás a partir de los requisitos de los clientes y, en 2022, lanzamos más de 40 funciones en Amazon Redshift para ayudar a los clientes con sus principales casos de uso de almacenamiento de datos, que incluyen:

  • Análisis de autoservicio
  • Fácil ingestión de datos
  • Intercambio de datos y colaboración
  • Ciencia de datos y aprendizaje automático
  • Analítica segura y fiable
  • Mejor análisis de rendimiento de precios

Profundicemos más y analicemos las nuevas características de Amazon Redshift en estas áreas.

Análisis de autoservicio

Los clientes continúan diciéndonos que los datos y el análisis se están volviendo omnipresentes y que todos en su organización necesitan análisis. anunciamos Amazon Redshift sin servidor (en versión preliminar) en 2021 para facilitar la ejecución y escalado de análisis en segundos sin tener que aprovisionar y administrar la infraestructura de almacenamiento de datos. En julio de 2022, anunciamos la disponibilidad general de Redshift Serverless, y desde entonces miles de clientes, incluidos Peloton, Broadridge Financials y NextGen Healthcare, lo han utilizado para analizar sus datos de forma rápida y sencilla. Amazon Redshift Serverless aprovisiona y escala de manera inteligente la capacidad del almacén de datos para brindar un alto rendimiento para todos sus análisis, y solo paga por segundo el procesamiento utilizado durante la duración de las cargas de trabajo. Desde GA, hemos agregado funciones como etiquetado de recursos, monitoreo simplificado y disponibilidad en regiones adicionales de AWS para simplificar aún más la facturación y ampliar el alcance en más regiones en todo el mundo.

En 2021, lanzamos Amazon Redshift Query Editor V2, que es una herramienta gratuita basada en la web para analistas de datos, científicos de datos y desarrolladores para explorar, analizar y colaborar en datos en almacenes de datos y lagos de datos de Amazon Redshift. En 2022, Query Editor V2 obtuvo mejoras adicionales como soporte para portátil para mejorar la colaboración para crear, organizar y anotar consultas; acceso de usuario a través de credenciales del proveedor de identidad (IdP) para inicio de sesión único; y la capacidad de ejecutar varias consultas al mismo tiempo para mejorar la productividad del desarrollador.

Autonomics es otra área en la que estamos trabajando activamente para usar optimizaciones basadas en ML y brindar a los clientes un almacén de datos de autoaprendizaje y autooptimización. En 2022, anunciamos la disponibilidad general de Vistas materializadas automatizadas (AutoMV) para mejorar el rendimiento de las consultas (reducir el tiempo de ejecución total) sin ningún esfuerzo del usuario mediante la creación y el mantenimiento automático de vistas materializadas. Los AutoMV, combinados con la actualización automática, la actualización incremental y la reescritura automática de consultas para vistas materializadas, hicieron que las vistas materializadas no necesitaran mantenimiento, brindándole un rendimiento más rápido automáticamente. además, el optimización automática de la mesa (ATO) capacidad para la optimización del esquema y gestión automática de la carga de trabajo (auto WLM) para la optimización de la carga de trabajo obtuvo mejoras adicionales para un mejor rendimiento de las consultas.

Fácil ingestión de datos

Los clientes nos dicen que tienen sus datos distribuidos en múltiples fuentes de datos, como bases de datos transaccionales, almacenes de datos, lagos de datos y sistemas de big data. Quieren la flexibilidad para integrar estos datos con canalizaciones de datos sin ETL o sin código o con poco código, o analizar estos datos en su lugar sin moverlos. Los clientes nos dicen que sus canalizaciones de datos actuales son complejas, manuales, rígidas y lentas, lo que da como resultado vistas de datos incompletas, inconsistentes y obsoletas, lo que limita los conocimientos. Los clientes nos han pedido una mejor manera de avanzar y nos complace anunciar una serie de nuevas capacidades para simplificar y automatizar las canalizaciones de datos.

Integración de Amazon Aurora zero-ETL con Amazon Redshift (versión preliminar) le permite ejecutar análisis casi en tiempo real y ML en petabytes de datos transaccionales. Ofrece una solución sin código para generar datos transaccionales de múltiples Aurora amazónica bases de datos disponibles en los almacenes de datos de Amazon Redshift segundos después de escribirse en Aurora, lo que elimina la necesidad de crear y mantener canalizaciones de datos complejas. Con esta característica, los clientes de Aurora también pueden acceder a las capacidades de Amazon Redshift, como análisis de SQL complejo, aprendizaje automático integrado, uso compartido de datos y acceso federado a múltiples almacenes de datos y lagos de datos. Esta característica ahora está disponible en versión preliminar para Edición compatible con MySQL de Amazon Aurora versión 3 (con compatibilidad con MySQL 8.0), y puede solicitar acceso a la vista previa.

Amazon Redshift ahora admite copia automática desde Amazon S3 (vista previa) para simplificar la carga de datos desde Servicio de almacenamiento simple de Amazon (Amazon S3) en Amazon Redshift. Ahora puede configurar reglas de ingestión continua de archivos (trabajos de copia) para rastrear sus rutas de Amazon S3 y cargar automáticamente nuevos archivos sin necesidad de herramientas adicionales o soluciones personalizadas. Los trabajos de copia se pueden monitorear a través de las tablas del sistema, y ​​automáticamente realizan un seguimiento de los archivos cargados previamente y los excluyen del proceso de ingesta para evitar la duplicación de datos. Esta función ahora está disponible en versión preliminar; puede probar esta característica creando un nuevo grupo usando la pista de vista previa.

Los clientes continúan diciéndonos que necesitan análisis instantáneos, en el momento y en tiempo real, y nos complace anunciar el Disponibilidad general de soporte de ingestión de transmisión. en Amazon Redshift para Secuencias de datos de Amazon Kinesis y Streaming administrado por Amazon para Apache Kafka (Amazon MSK). Esta función elimina la necesidad de organizar los datos de transmisión en Amazon S3 antes de incorporarlos a Amazon Redshift, lo que le permite lograr una latencia baja, medida en segundos, mientras ingiere cientos de megabytes de datos de transmisión por segundo en sus almacenes de datos. Puede usar SQL dentro de Amazon Redshift para conectarse e ingerir datos directamente de múltiples flujos de datos de Kinesis o temas de MSK, crear vistas materializadas de transmisión de actualización automática con transformaciones en la parte superior de las transmisiones directamente para acceder a los datos de transmisión y combinar datos en tiempo real con datos históricos. datos para una mejor comprensión. Por ejemplo, Adobe ha integrado la ingesta de streaming de Amazon Redshift como parte de su Adobe Experience Platform para la ingesta y el análisis, en tiempo real, de la web y las aplicaciones, el flujo de clics y los datos de la sesión para varias aplicaciones, como CRM y aplicaciones de atención al cliente.

Los clientes nos han dicho que quieren una integración simple y lista para usar entre herramientas de Amazon Redshift, BI y ETL (extracción, transformación y carga) y aplicaciones comerciales como Salesforce y Marketo. Nos complace anunciar la disponibilidad general de Cargador de datos de Informatica para Amazon Redshift, que le permite utilizar Informatica Data Loader para la carga de datos de gran volumen y alta velocidad en Amazon Redshift de forma gratuita. Simplemente puede seleccionar la opción Cargador de datos de Informatica en la consola de Amazon Redshift. Una vez en Informatica Data Loader, puede conectarse a fuentes como Salesforce o Marketo, elegir Amazon Redshift como destino y comenzar a cargar sus datos.

Intercambio de datos y colaboración

Los clientes continúan diciéndonos que quieren analizar todos sus datos propios y de terceros y poner a disposición de sus clientes, socios y proveedores la valiosa información basada en datos. Lanzamos nuevas funciones en 2021, como Compartir datos y Integración de intercambio de datos de AWS, para que le resulte más fácil analizar todos sus datos y compartirlos dentro y fuera de sus organizaciones.

Un gran ejemplo de un cliente que usa el intercambio de datos es Orion. Orion proporciona soluciones de datos como servicio (DaaS) en tiempo real para clientes en la industria de servicios financieros, como proveedores de gestión de patrimonio, gestión de activos y gestión de inversiones. Tienen más de 2,500 fuentes de datos que son principalmente bases de datos de SQL Server ubicadas tanto en las instalaciones como en AWS. Los datos se transmiten mediante conectores Kafka a Amazon Redshift. Tienen un grupo de productores que recibe todos estos datos y luego usa el uso compartido de datos para compartir datos en tiempo real para la colaboración. Esta es una arquitectura multiusuario que sirve a múltiples clientes. Dada la sensibilidad de sus datos, el intercambio de datos es una forma de proporcionar aislamiento de carga de trabajo entre clústeres y también compartir de forma segura esos datos con los usuarios finales.

En 2022, continuamos invirtiendo en esta área para mejorar el rendimiento, la gobernanza y la productividad de los desarrolladores con nuevas funciones para que sea más fácil, simple y rápido compartir y colaborar en datos.

A medida que los clientes construyen configuraciones para compartir datos a gran escala, han solicitado un control y una seguridad simplificados para los datos compartidos, y estamos agregando control de acceso centralizado con AWS Lake Formation para que los recursos compartidos de datos de Amazon Redshift permitan compartir datos en vivo entre varios almacenes de datos de Amazon Redshift. Con esta característica, Amazon Redshift ahora admite la gobernanza simplificada de los recursos compartidos de datos de Amazon Redshift mediante el uso de Formación del lago AWS como un único panel de vidrio para administrar de forma centralizada los datos o los permisos en los recursos compartidos de datos. Puede ver, modificar y auditar permisos, incluida la seguridad a nivel de fila y de columna en las tablas y vistas en los recursos compartidos de datos de Amazon Redshift, utilizando las API de Lake Formation y el Consola de administración de AWSy permitir que otros almacenes de datos de Amazon Redshift descubran y consuman los recursos compartidos de datos de Amazon Redshift.

Ciencia de datos y aprendizaje automático

Los clientes continúan diciéndonos que quieren que sus sistemas de datos y análisis los ayuden a responder una amplia gama de preguntas, desde qué está sucediendo en su negocio (análisis descriptivo) hasta por qué está sucediendo (análisis de diagnóstico) y qué sucederá en el futuro. (análisis predictivo). Amazon Redshift proporciona características como análisis de SQL complejo, análisis de lago de datos y Aprendizaje automático de Amazon Redshift para que los clientes analicen sus datos y descubran información valiosa. Desplazamiento al rojo ML integra Amazon Redshift con Amazon SageMaker, un servicio de ML completamente administrado, que le permite crear, entrenar e implementar modelos de ML utilizando comandos SQL familiares.

Los clientes también nos han pedido una mejor integración entre Amazon Redshift y Apache Spark, por lo que nos complace anunciar Integración de Amazon Redshift para Apache Spark para hacer que los almacenes de datos sean fácilmente accesibles para las aplicaciones basadas en Spark. Ahora, los desarrolladores que utilizan los servicios de análisis y aprendizaje automático de AWS, como EMR de Amazon, Pegamento AWSy SageMaker puede crear sin esfuerzo aplicaciones Apache Spark que leen y escriben en sus almacenes de datos de Amazon Redshift. Amazon EMR y AWS Glue empaquetan el conector Redshift-Spark para que pueda conectarse fácilmente a su almacén de datos desde sus aplicaciones basadas en Spark. Puede utilizar varias funciones de inserción para operaciones como ordenar, agregar, limitar, unir y funciones escalares, de modo que solo los datos relevantes se muevan desde su almacén de datos de Amazon Redshift a la aplicación Spark consumidora. También puede hacer que sus aplicaciones sean más seguras utilizando Gestión de identidades y accesos de AWS (IAM) credenciales para conectarse a Amazon Redshift.

Analítica segura y fiable

Los clientes continúan diciéndonos que sus almacenes de datos son sistemas de misión crítica que necesitan alta disponibilidad, confiabilidad y seguridad. Lanzamos una serie de nuevas características en 2022 en esta área.

Amazon Redshift ahora admite Implementaciones Multi-AZ (en versión preliminar) para clústeres basados ​​en instancias RA3, lo que permite ejecutar su almacén de datos en varias zonas de disponibilidad de AWS simultáneamente y un funcionamiento continuo en escenarios de falla imprevistos en toda la zona de disponibilidad. La compatibilidad con Multi-AZ ya está disponible para Redshift Serverless. Una implementación de Amazon Redshift Multi-AZ le permite recuperarse en caso de fallas en la zona de disponibilidad sin la intervención del usuario. Se accede a un almacén de datos de Amazon Redshift Multi-AZ como un único almacén de datos con un punto de enlace y lo ayuda a maximizar el rendimiento al distribuir el procesamiento de la carga de trabajo en varias zonas de disponibilidad automáticamente. No se necesitan cambios en la aplicación para mantener la continuidad del negocio durante interrupciones imprevistas.

En 2022, lanzamos funciones como el control de acceso basado en roles, la seguridad a nivel de fila y el enmascaramiento de datos (en versión preliminar) para que le resulte más fácil administrar el acceso y decidir quién tiene acceso a qué datos, incluida la ofuscación de la información de identificación personal (PII). ) como números de tarjetas de crédito.

Puedes usar control de acceso basado en roles (RBAC) para controlar el acceso del usuario final a los datos a un nivel amplio o granular en función de los permisos y la función laboral del usuario final. Con RBAC, puede crear un rol usando SQL, otorgar una colección de permisos granulares al rol y luego asignar ese rol a los usuarios finales. A los roles se les pueden otorgar permisos de nivel de objeto, de columna y de sistema. Además, RBAC presenta roles de sistema listos para usar para DBA, operadores, administradores de seguridad o roles personalizados.

Seguridad a nivel de fila (RLS) simplifica el diseño y la implementación del acceso detallado a las filas de las tablas. Con RLS, puede restringir el acceso a un subconjunto de filas dentro de una tabla según el rol de trabajo de los usuarios o los permisos con SQL.

Soporte de Amazon Redshift para enmascaramiento dinámico de datos (DDM), que ahora está disponible en versión preliminar, le permite simplificar la protección de la PII, como números de seguridad social, números de tarjetas de crédito y números de teléfono en su almacén de datos de Amazon Redshift. Con el enmascaramiento dinámico de datos, usted controla el acceso a sus datos a través de políticas de enmascaramiento simples basadas en SQL que determinan cómo Amazon Redshift devuelve datos confidenciales al usuario en el momento de la consulta. Puede crear políticas de enmascaramiento para definir valores de datos enmascarados coherentes, que conservan el formato e irreversibles. Puede aplicar una política de enmascaramiento en una columna específica o en una lista de columnas de una tabla. Además, tiene la flexibilidad de elegir cómo mostrar los datos enmascarados. Por ejemplo, puede ocultar completamente los datos, reemplazar valores reales parciales con caracteres comodín o definir su propia forma de enmascarar los datos mediante expresiones SQL, Python o AWS Lambda funciones definidas por el usuario. Además, puede aplicar una política de enmascaramiento condicional basada en otras columnas, que protege de forma selectiva los datos de la columna en una tabla en función de los valores en una o más columnas diferentes.

También anunciamos mejoras en registro de auditoría, integración nativa con Microsoft Azure Active Directoryy soporte para roles predeterminados de IAM en regiones adicionales para simplificar aún más la gestión de la seguridad.

Mejor análisis de rendimiento de precios

Los clientes continúan diciéndonos que necesitan almacenes de datos rápidos y rentables que brinden un alto rendimiento a cualquier escala y mantengan los costos bajos. Desde el día 1 desde Lanzamiento de Amazon Redshift en 2012, adoptamos un enfoque basado en datos y utilizamos la telemetría de flotas para crear un servicio de almacenamiento de datos en la nube que le brinda la mejor relación precio-rendimiento a cualquier escala. A lo largo de los años, hemos evolucionado Arquitectura de Amazon Redshift y lanzó funciones como Almacenamiento gestionado Redshift (RMS) para la separación de almacenamiento y computación, Espectro de Redshift de Amazon para consultas de lago de datos, optimización automática de la mesa para la optimización del esquema físico, gestión automática de la carga de trabajo para priorizar las cargas de trabajo y asignar la memoria y el cómputo correctos, cambio de tamaño de clúster para escalar el cómputo y el almacenamiento verticalmente, y escala de concurrencia para escalar dinámicamente el cómputo hacia adentro o hacia afuera. puntos de referencia de rendimiento continuar demostrando el liderazgo en desempeño de precios de Amazon Redshift.

En 2022, agregamos nuevas funciones, como la disponibilidad general de escalado de concurrencia para operaciones de escritura como COPIAR, INSERTAR, ACTUALIZAR y ELIMINAR para admitir consultas y usuarios simultáneos prácticamente ilimitados. También introdujimos mejoras de rendimiento para el procesamiento de datos basado en cadenas a través de escaneos vectorizados sobre columnas de cadenas codificadas por diccionario, livianas y eficientes en CPU, lo que permite que el motor de la base de datos opere directamente sobre datos comprimidos.

También agregamos soporte para operadores SQL como UNIR (operador único para inserciones o actualizaciones); CONNECY_BY (para consultas jerárquicas); CONJUNTOS DE AGRUPACIÓN, ROLLUP y CUBO (para informes multidimensionales); y aumentó el tamaño del tipo de datos SUPER a 16 MB para facilitarle la migración de almacenes de datos heredados a Amazon Redshift.

Conclusión

Nuestros clientes continúan diciéndonos que los datos y el análisis siguen siendo una prioridad para ellos y que la necesidad de extraer más valor comercial de sus datos de manera rentable durante estos tiempos es más pronunciada que en cualquier otro momento en el pasado. Amazon Redshift como su almacén de datos en la nube le permite ejecutar análisis SQL complejos con escala y rendimiento de terabytes a petabytes de datos estructurados y no estructurados y hacer que la información esté ampliamente disponible a través de herramientas de análisis y BI populares.

Aunque lanzamos más de 40 funciones en 2022 y el ritmo de la innovación continúa acelerándose, sigue siendo el día 1 y esperamos saber de usted cómo estas funciones lo ayudan a generar más valor para sus organizaciones. Lo invitamos a probar estas nuevas características y ponerse en contacto con nosotros a través de su equipo de cuentas de AWS si tiene más comentarios.


Acerca del autor.

manan goel es un líder de comercialización de productos para los servicios de análisis de AWS, incluido Amazon Redshift en AWS. Tiene más de 25 años de experiencia y está bien versado en bases de datos, almacenamiento de datos, inteligencia comercial y análisis. Manan tiene un MBA de la Universidad de Duke y una licenciatura en ingeniería electrónica y de comunicaciones.

punto_img

Información más reciente

punto_img