Logotipo de Zephyrnet

Combine datos transaccionales, de streaming y de terceros en Amazon Redshift para servicios financieros | Servicios web de Amazon

Fecha:

Los clientes de servicios financieros utilizan datos de diferentes fuentes que se originan en diferentes frecuencias, lo que incluye conjuntos de datos en tiempo real, por lotes y archivados. Además, necesitan arquitecturas de streaming para manejar los crecientes volúmenes comerciales, la volatilidad del mercado y las demandas regulatorias. Los siguientes son algunos de los casos de uso empresarial clave que resaltan esta necesidad:

  • Informes comerciales – Desde la crisis financiera mundial de 2007-2008, los reguladores han aumentado sus exigencias y escrutinio sobre la presentación de informes regulatorios. Los reguladores se han centrado cada vez más en proteger al consumidor a través de informes de transacciones (normalmente T+1, es decir, 1 día hábil después de la fecha de negociación) y aumentar la transparencia en los mercados a través de requisitos de informes comerciales casi en tiempo real.
  • Gestión del riesgo – A medida que los mercados de capitales se vuelven más complejos y los reguladores lanzan nuevos marcos de riesgo, como Revisión Fundamental del Libro de Negociación (FRTB) y Basilea III, las instituciones financieras buscan aumentar la frecuencia de los cálculos del riesgo general de mercado, el riesgo de liquidez, el riesgo de contraparte y otras mediciones de riesgo, y quieren acercarse lo más posible a los cálculos en tiempo real.
  • Calidad comercial y optimización – Para monitorear y optimizar la calidad de las operaciones, es necesario evaluar continuamente las características del mercado, como el volumen, la dirección, la profundidad del mercado, la tasa de cumplimiento y otros puntos de referencia relacionados con la finalización de las operaciones. La calidad del comercio no sólo está relacionada con el desempeño del corredor, sino que también es un requisito de los reguladores, empezando por MIFID II.

El desafío es encontrar una solución que pueda manejar estas fuentes dispares, frecuencias variadas y requisitos de consumo de baja latencia. La solución debe ser escalable, rentable y sencilla de adoptar y operar. Desplazamiento al rojo de Amazon características como ingesta de streaming, Aurora amazónica integración ETL ceroy el intercambio de datos con Intercambio de datos de AWS Permitir el procesamiento casi en tiempo real para informes comerciales, gestión de riesgos y optimización comercial.

En esta publicación, proporcionamos una arquitectura de solución que describe cómo puede procesar datos de tres tipos diferentes de fuentes (datos de streaming, transaccionales y de referencia de terceros) y agregarlos en Amazon Redshift para generar informes de inteligencia empresarial (BI).

Resumen de la solución

Esta arquitectura de solución se crea priorizando un enfoque de código bajo/sin código con los siguientes principios rectores:

  • Facilidad de uso – Debería ser menos complejo de implementar y operar con interfaces de usuario intuitivas.
  • Escalable – Debería poder aumentar y disminuir sin problemas la capacidad según demanda
  • Integración nativa – Los componentes deben integrarse sin conectores ni software adicionales
  • Económico – Debería ofrecer una relación precio/rendimiento equilibrada
  • Bajo mantenimiento – Debería requerir menos gastos generales de gestión y operativos.

El siguiente diagrama ilustra la arquitectura de la solución y cómo se aplicaron estos principios rectores a los componentes de ingesta, agregación y generación de informes.

Implementar la solución

Puedes usar lo siguiente Formación en la nube de AWS plantilla para implementar la solución.

Lanzar la pila de formación de nubes

Esta pila crea los siguientes recursos y permisos necesarios para integrar los servicios:

Ingestión

Para ingerir datos, utiliza Ingestión de streaming de Amazon Redshift para cargar datos de transmisión desde el flujo de datos de Kinesis. Para datos transaccionales, utiliza el Integración de desplazamiento al rojo cero-ETL con Amazon Aurora MySQL. Para datos de referencia de terceros, aprovecha Recursos compartidos de datos de AWS Data Exchange. Estas capacidades le permiten crear rápidamente canalizaciones de datos escalables porque puede aumentar la capacidad de los fragmentos de Kinesis Data Streams, realizar cálculos para fuentes y destinos de ETL cero y realizar cálculos Redshift para recursos compartidos de datos cuando sus datos crecen. La ingestión de streaming de Redshift y la integración de ETL cero son soluciones de código bajo/sin código que puede crear con SQL simples sin invertir mucho tiempo y dinero en el desarrollo de código personalizado complejo.

Para los datos utilizados para crear esta solución, nos asociamos con FactSet, un proveedor líder de datos financieros, análisis y tecnología abierta. FactSet tiene varios conjuntos de datos disponible en el mercado de AWS Data Exchange, que utilizamos como datos de referencia. También utilizamos FactSet soluciones de datos de mercado para cotizaciones y operaciones de mercado históricas y en tiempo real.

Procesamiento

Los datos se procesan en Amazon Redshift siguiendo una metodología de extracción, carga y transformación (ELT). Con una escala prácticamente ilimitada y un aislamiento de la carga de trabajo, ELT es más adecuado para soluciones de almacenamiento de datos en la nube.

Utilice la ingesta de streaming de Redshift para la ingesta en tiempo real de cotizaciones de streaming (oferta/demanda) del flujo de datos de Kinesis directamente a una vista materializada de streaming y procese los datos en el siguiente paso usando PartiQL para analizar las entradas del flujo de datos. Tenga en cuenta que las vistas materializadas en streaming difieren de las vistas materializadas normales en términos de cómo funciona la actualización automática y los comandos SQL de gestión de datos utilizados. Referirse a Consideraciones sobre la ingesta de streaming para obtener más detalles.

Utilice la integración Aurora de ETL cero para ingerir datos transaccionales (negocios) de fuentes OLTP. Referirse a Trabajar con integraciones de ETL cero para fuentes actualmente admitidas. Puede combinar datos de todas estas fuentes mediante vistas y utilizar procedimientos almacenados para implementar reglas de transformación empresarial, como calcular promedios ponderados entre sectores e intercambios.

Los volúmenes históricos de datos comerciales y de cotizaciones son enormes y, a menudo, no se consultan con frecuencia. Puedes usar Espectro de Redshift de Amazon para acceder a estos datos en el lugar sin cargarlos en Amazon Redshift. Crea tablas externas que apuntan a datos en Servicio de almacenamiento simple de Amazon (Amazon S3) y realice consultas de manera similar a como consulta cualquier otra tabla local en Amazon Redshift. Varios almacenes de datos de Redshift pueden consultar simultáneamente los mismos conjuntos de datos en Amazon S3 sin la necesidad de hacer copias de los datos para cada almacén de datos. Esta característica simplifica el acceso a datos externos sin escribir procesos ETL complejos y mejora la facilidad de uso de la solución general.

Repasemos algunos ejemplos de consultas utilizadas para analizar cotizaciones y operaciones. Usamos las siguientes tablas en las consultas de ejemplo:

  • dt_hist_quote – Datos de cotizaciones históricas que contienen precio y volumen de oferta, precio y volumen de demanda, e intercambios y sectores. Debe utilizar conjuntos de datos relevantes en su organización que contengan estos atributos de datos.
  • dt_hist_trades – Datos históricos de operaciones que contienen precios, volúmenes, sectores y detalles de intercambio negociados. Debe utilizar conjuntos de datos relevantes en su organización que contengan estos atributos de datos.
  • factset_sector_map – Mapeo entre sectores y bolsas. Puedes obtener esto del Conjunto de datos ADX de conceptos básicos de FactSet.

Consulta de muestra para analizar cotizaciones históricas

Puede utilizar la siguiente consulta para encontrar diferenciales promedio ponderados sobre cotizaciones:

select
date_dt :: date,
case
when exchange_name like 'Cboe%' then 'CBOE'
when (exchange_name) like 'NYSE%' then 'NYSE'
when (exchange_name) like 'New York Stock Exchange' then 'NYSE'
when (exchange_name) like 'Nasdaq%' then 'NASDAQ'
end as parent_exchange_name,
sector_name,
sum(spread * weight)/sum(weight) :: decimal (30,5) as weighted_average_spread
from
(
select date_dt,exchange_name,
factset_sector_desc sector_name,
((bid_price*bid_volume) + (ask_price*ask_volume))as weight,
((ask_price - bid_price)/ask_price) as spread
from
dt_hist_quotes a
join
fds_adx_fundamentals_db.ref_v2.factset_sector_map b
on(a.sector_code = b.factset_sector_code)
where ask_price <> 0 and bid_price <> 0
)
group by 1,2,3

Consulta de muestra para analizar operaciones históricas

Puede utilizar la siguiente consulta para encontrar $-volume sobre operaciones por bolsa detallada, por sector y por bolsa principal (NYSE y Nasdaq):

select
cast(date_dt as date) as date_dt,
case
when exchange_name like 'Cboe%' then 'CBOE'
when (exchange_name) like 'NYSE%' then 'NYSE'
when (exchange_name) like 'New York Stock Exchange' then 'NYSE'
when (exchange_name) like 'Nasdaq%' then 'NASDAQ'
end as parent_exchange_name,
factset_sector_desc sector_name,
sum((price * volume):: decimal(30,4)) total_transaction_amt
from
dt_hist_trades a
join
fds_adx_fundamentals_db.ref_v2.factset_sector_map b
on(a.sector_code = b.factset_sector_code)
group by 1,2,3

Informes

Puedes usar Amazon QuickSight y Grafana gestionado por Amazon para BI y generación de informes en tiempo real, respectivamente. Estos servicios se integran de forma nativa con Amazon Redshift sin la necesidad de utilizar conectores o software adicionales en el medio.

Puede ejecutar una consulta directa desde QuickSight para informes y paneles de BI. Con QuickSight, también puede almacenar datos localmente en el caché SPICE con actualización automática para baja latencia. Referirse a Autorización de conexiones de Amazon QuickSight a clústeres de Amazon Redshift para obtener detalles completos sobre cómo integrar QuickSight con Amazon Redshift.

Puede utilizar Amazon Managed Grafana para obtener paneles comerciales casi en tiempo real que se actualizan cada pocos segundos. Los paneles en tiempo real para monitorear las latencias de ingesta comercial se crean utilizando Grafana y los datos provienen de vistas del sistema en Amazon Redshift. Referirse a Uso de la fuente de datos de Amazon Redshift para obtener información sobre cómo configurar Amazon Redshift como fuente de datos para Grafana.

Los usuarios que interactúan con los sistemas de informes regulatorios incluyen analistas, administradores de riesgos, operadores y otras personas que respaldan las operaciones comerciales y tecnológicas. Además de generar informes regulatorios, estos equipos requieren visibilidad del estado de los sistemas de informes.

Análisis de cotizaciones históricas.

En esta sección, exploramos algunos ejemplos de análisis de citas históricas del Amazon QuickSight .

Spread medio ponderado por sectores

El siguiente gráfico muestra la agregación diaria por sector de los diferenciales de oferta y demanda promedio ponderados de todas las operaciones individuales en NASDAQ y NYSE durante 3 meses. Para calcular el diferencial diario promedio, cada diferencial se pondera por la suma del volumen en dólares de oferta y demanda. La consulta para generar este gráfico procesa 103 mil millones de puntos de datos en total, une cada operación con la tabla de referencia del sector y se ejecuta en menos de 10 segundos.

Spread promedio ponderado por bolsas

El siguiente gráfico muestra la agregación diaria de los diferenciales promedio ponderados entre oferta y demanda de todas las operaciones individuales en NASDAQ y NYSE durante 3 meses. La metodología de cálculo y las métricas de rendimiento de las consultas son similares a las del gráfico anterior.

Análisis histórico de operaciones

En esta sección, exploramos algunos ejemplos de análisis de operaciones históricas desde el Amazon QuickSight .

Volúmenes comerciales por sector

El siguiente gráfico muestra la agregación diaria por sector de todas las operaciones individuales en NASDAQ y NYSE durante 3 meses. La consulta para generar este gráfico procesa 3.6 millones de operaciones en total, une cada operación con la tabla de referencia del sector y se ejecuta en menos de 5 segundos.

Volúmenes comerciales para las principales bolsas

El siguiente gráfico muestra la agregación diaria por grupo de intercambio de todas las operaciones individuales durante 3 meses. La consulta para generar este gráfico tiene métricas de rendimiento similares a las del gráfico anterior.

Tableros en tiempo real

El seguimiento y la observabilidad son requisitos importantes para cualquier aplicación empresarial crítica, como los informes comerciales, la gestión de riesgos y los sistemas de gestión comercial. Además de las métricas a nivel del sistema, también es importante monitorear los indicadores clave de desempeño en tiempo real para que los operadores puedan recibir alertas y responder lo antes posible a eventos que impacten el negocio. Para esta demostración, hemos creado paneles en Grafana que monitorean el retraso de las cotizaciones y los datos comerciales del flujo de datos de Kinesis y Aurora, respectivamente.

El panel de retraso en la ingesta de cotizaciones muestra la cantidad de tiempo que tarda cada registro de cotización en ser absorbido del flujo de datos y estar disponible para consultas en Amazon Redshift.

El panel de retraso en la ingesta comercial muestra la cantidad de tiempo que tarda una transacción en Aurora en estar disponible en Amazon Redshift para realizar consultas.

Limpiar

Para limpiar sus recursos, elimine la pila que implementó mediante AWS CloudFormation. Para obtener instrucciones, consulte Eliminación de una pila en la consola de AWS CloudFormation.

Conclusión

Los crecientes volúmenes de actividad comercial, la gestión de riesgos más compleja y los requisitos regulatorios mejorados están llevando a las empresas de los mercados de capitales a adoptar el procesamiento de datos en tiempo real y casi en tiempo real, incluso en plataformas intermedias y administrativas donde el procesamiento al final del día y durante la noche era el estándar. En esta publicación, demostramos cómo puede utilizar las capacidades de Amazon Redshift para lograr facilidad de uso, bajo mantenimiento y rentabilidad. También analizamos las integraciones entre servicios para ingerir datos del mercado de streaming, procesar actualizaciones de bases de datos OLTP y utilizar datos de referencia de terceros sin tener que realizar un procesamiento ETL o ELT complejo y costoso antes de que los datos estén disponibles para análisis e informes.

Comuníquese con nosotros si necesita orientación para implementar esta solución. Referirse a Análisis en tiempo real con la ingestión de streaming de Amazon Redshift, Guía de introducción para análisis operativos casi en tiempo real mediante la integración zero-ETL de Amazon Aurora con Amazon Redshifty Trabajar con recursos compartidos de datos de AWS Data Exchange como productor para obtener más información.


Acerca de los autores

satesh sonti es un Arquitecto de Soluciones Especialista en Análisis Sr. con sede en Atlanta, especializado en la creación de plataformas de datos empresariales, almacenamiento de datos y soluciones de análisis. Tiene más de 18 años de experiencia en la creación de activos de datos y en la dirección de programas de plataformas de datos complejos para clientes de banca y seguros en todo el mundo.

Alket Memushaj Trabaja como arquitecto principal en el equipo de desarrollo del mercado de servicios financieros en AWS. Alket es responsable de la estrategia técnica para los mercados de capitales y trabaja con socios y clientes para implementar aplicaciones a lo largo del ciclo de vida comercial en la nube de AWS, incluida la conectividad del mercado, los sistemas comerciales y las plataformas de investigación y análisis previos y posteriores a la negociación.

Rubén Falk es un especialista en mercados de capitales centrado en inteligencia artificial y datos y análisis. Ruben consulta con participantes de los mercados de capitales sobre arquitectura de datos moderna y procesos de inversión sistemáticos. Se unió a AWS procedente de S&P Global Market Intelligence, donde fue director global de soluciones de gestión de inversiones.

Jeff Wilson es un especialista en comercialización a nivel mundial con 15 años de experiencia trabajando con plataformas analíticas. Su enfoque actual es compartir los beneficios de utilizar Amazon Redshift, el almacén de datos nativo en la nube de Amazon. Jeff reside en Florida y trabaja en AWS desde 2019.

punto_img

Información más reciente

punto_img