Logotipo de Zephyrnet

Amazon Kinesis Data Streams: celebrando una década de innovación de datos en tiempo real | Servicios web de Amazon

Fecha:

Los datos son un activo estratégico clave para toda organización, y cada empresa es, en esencia, un negocio de datos. Sin embargo, en muchas organizaciones, los datos suelen estar distribuidos en varios sistemas diferentes, como aplicaciones de software como servicio (SaaS), bases de datos operativas y almacenes de datos. Estos silos de datos dificultan la obtención de vistas unificadas de los datos en una organización y actuar en tiempo real para obtener el máximo valor.

Hace diez años lanzamos Secuencias de datos de Amazon Kinesis, el primer servicio de transmisión de datos sin servidor nativo de la nube, que servirá como columna vertebral para que las empresas muevan datos a través de los límites del sistema, rompiendo los silos de datos. Con la transmisión de datos, puede alimentar lagos de datos que se ejecutan en Servicio de almacenamiento simple de Amazon (Amazon S3), enriquezca las experiencias de los clientes a través de la personalización, mejore la eficiencia operativa con el mantenimiento predictivo de la maquinaria en sus fábricas y obtenga mejores conocimientos con modelos de aprendizaje automático (ML) más precisos. Amazon Kinesis Data Streams es un pilar estratégico de datos fundamental para decenas de miles de clientes. A medida que se unen los flujos de datos sin procesar, se desbloquean capacidades para transformar, enriquecer y consultar datos continuamente en tiempo real a través de una integración perfecta con motores de procesamiento de flujos como Servicio administrado de Amazon para Apache Flink.

Como ejemplo, la Liga Nacional de Hockey (NHL) reinventó la experiencia de los fanáticos al transmitir datos y estadísticas de juegos NHL EDGE en vivo para ofrecer a los fanáticos del hockey información valiosa para mantenerlos al borde de sus asientos. La tecnología NHL EDGE en el disco y los suéteres de los jugadores genera miles de puntos de datos cada segundo para la NHL, que AWS puede analizar para predecir resultados probables para eventos clave como los enfrentamientos. Para procesar y analizar miles de señales, la NHL creó una base de transmisión de datos en tiempo real con Kinesis Data Streams y Amazon Managed Service para Apache Flink para transmitir, preparar e introducir datos en modelos de aprendizaje automático, lo que ayuda a informar predicciones de enfrentamientos en segundos y ampliando nuevas formas de atraer a los espectadores.

Sobre la base de estas bases de transmisión de datos, muchos clientes están pensando actualmente en cómo ofrecer nuevos productos y servicios transformadores con IA generativa. La transmisión permite a las empresas conectar los datos disponibles en los almacenes de datos con grandes modelos de lenguaje (LLM) de forma segura y en tiempo real. Aunque los LLM son capaces de trabajar con miles de millones de parámetros, para ofrecer una experiencia atractiva y adaptada a los clientes de una empresa, los LLM requieren datos de personalización para los usuarios de la empresa y almacenes de conocimiento patentados dentro de los almacenes de datos de la empresa. Es necesaria una estrategia de datos que incorpore la transmisión para ofrecer personalización y datos propietarios que estén disponibles para consultas en tiempo real.

Los clientes con una estrategia de transmisión de datos en tiempo real están a la vanguardia en el suministro de productos innovadores con IA generativa. Un cliente adoptó Kinesis Data Streams para su estrategia de datos y transmite miles de millones de eventos desde sus productos digitales para obtener información en tiempo real. Con una combinación de análisis y transmisión de datos de baja latencia, pueden comprender y personalizar la experiencia del usuario a través de un sistema autosuficiente y perfectamente integrado para la experimentación y la retroalimentación automatizada. A principios de este año, basándose en su ya sólida base de datos, lanzaron un innovador producto de IA generativa de medios digitales. La misma base de datos construida sobre Kinesis Data Streams se utiliza para analizar continuamente cómo los usuarios interactúan con el contenido generado y ayuda al equipo de producto a ajustar la aplicación.

"Las tecnologías de transmisión de datos en tiempo real son esenciales para la transformación digital. Estos servicios ayudan a los clientes a incorporar datos a sus aplicaciones y modelos, haciéndolos más inteligentes. Los datos en tiempo real brindan a las empresas una ventaja en las decisiones, predicciones y conocimientos basados ​​en datos al utilizar los datos en el mismo momento en que se generan, lo que brinda una ventaja incomparable en un mundo donde el tiempo es la clave del éxito. Incorpore los datos una vez, utilícelos en toda su organización y actúe antes de que disminuya el valor de esos datos.."

– Mindy Ferguson, vicepresidenta de transmisión y mensajería de AWS.

Mientras celebramos el décimo aniversario de Kinesis Data Streams, los clientes han compartido cuatro razones clave por las que siguen valorando este servicio revolucionario. Les encanta cómo pueden transmitir datos fácilmente sin servidores subyacentes que aprovisionar o administrar, operar a escala masiva con un rendimiento consistente, lograr alta resiliencia y durabilidad y beneficiarse de una amplia integración con innumerables fuentes y sumideros para ingerir y procesar datos, respectivamente.

Facilidad de uso

Comenzar a utilizar Kinesis Data Streams es sencillo: los desarrolladores pueden crear un flujo de datos con unos pocos clics en la consola de Kinesis Data Streams o con una única llamada API. Cambiar el tamaño o la configuración también es una única llamada a la API, y cada flujo de datos viene con un período de retención de datos predeterminado de 24 horas. Los desarrolladores no tienen que preocuparse por los clústeres, las actualizaciones de versiones o la planificación de la capacidad de almacenamiento. Simplemente activan un flujo de datos y comienzan a ingerir datos.

Las necesidades de nuestros clientes han evolucionado en los últimos 10 años. A medida que se capturan y transmiten más eventos, los clientes quieren que sus flujos de datos escalen de manera elástica sin ninguna sobrecarga operativa. En respuesta, lanzamos On-Demand transmisiones en 2021 para brindar una experiencia de escalado simple y automático. Con las transmisiones bajo demanda, usted permite que el servicio se encargue de aumentar la capacidad de una transmisión de manera proactiva y solo se le cobra por los datos reales ingeridos, recuperados y almacenados. A medida que nuestros clientes continuaron solicitando más capacidades, aumentamos el límite de rendimiento de ingesta de cada transmisión On-Demand de 200 MB/s a 1GB / s en marzo de 2023, y luego a 2GB / s en octubre de 2023, para dar cabida a cargas de trabajo de mayor rendimiento. Para seguir innovando y ser el servicio de transmisión de datos más fácil de usar, escuchamos activamente los casos de uso de nuestros clientes.

Canva es una plataforma online de diseño y comunicación visual. A medida que creció rápidamente de 30 millones a 135 millones de usuarios mensuales, ha creado una plataforma de transmisión de datos a escala que es fácil de operar para impulsar innovaciones de productos y personalizar la experiencia del usuario.

“Amazon Kinesis Data Streams y AWS Lambda se utilizan en toda la plataforma de registro de Canva, ingiriendo y procesando más de 60 mil millones de eventos de registro por día. La combinación de Kinesis Data Streams y Lambda ha abstraído una gran cantidad de trabajo que a menudo se requiere en la gestión de una canalización de datos masiva, como la implementación y gestión de una flota de servidores, al mismo tiempo que proporciona un servicio altamente escalable y confiable. Nos ha permitido centrarnos en ofrecer un producto de clase mundial mediante la creación de funciones muy solicitadas en lugar de dedicar tiempo al trabajo operativo”.

– Phoebe Zhou, ingeniera de software de Canva.

Operar a escala masiva con un rendimiento consistente

Un requisito fundamental de una estrategia de transmisión de datos es la ingesta y el procesamiento de grandes volúmenes de datos con baja latencia. Kinesis Data Streams procesa billones de registros por día en decenas de miles de clientes. Los clientes ejecutan más de 3.5 millones de transmisiones únicas y procesan más de 45 PB de datos por día. Nuestros clientes más importantes consumen más de 15 GB por segundo de datos en tiempo real con transmisiones individuales. ¡Eso equivale a transmitir múltiples puntos de datos para cada persona en la tierra, cada segundo! Incluso a esta escala, todos nuestros clientes siguen recuperando datos a milisegundos de disponibilidad.

Los clientes también quieren procesar los mismos datos con múltiples aplicaciones, cada una de las cuales obtiene un valor diferente, sin preocuparse de que una aplicación afecte el rendimiento de lectura de otra. Distribución mejorada ofrece rendimiento de lectura dedicado y baja latencia para cada consumidor de datos. Esto ha permitido a los equipos de plataformas empresariales proporcionar datos en tiempo real a más equipos y aplicaciones.

Negro carbón VMware utiliza Kinesis Data Streams para ingerir petabytes de datos todos los días para proteger millones de puntos finales de clientes. El equipo se centra en su experiencia mientras AWS gestiona la transmisión de datos para satisfacer el creciente tráfico y las necesidades de los clientes en tiempo real.

“Cuando los datos de un cliente individual aumentan o disminuyen, podemos utilizar la elasticidad de Amazon Kinesis Data Streams para escalar hacia arriba o hacia abajo la computación para procesar datos de manera confiable y al mismo tiempo administrar nuestros costos de manera efectiva. Es por eso que Kinesis Data Streams es una buena opción. La mayor ventaja es la naturaleza administrada de nuestra solución en AWS. Esto ha dado forma a nuestra arquitectura y nos ha ayudado a trasladar la complejidad a otros lugares”.

– Stoyan Dimkov, ingeniero y arquitecto de software de VMware Carbon Black.

Haz clic aquí para más información sobre la ejemplo.

Proporcionar resiliencia y durabilidad para la transmisión de datos

Con datos florecientes, los clientes quieren más flexibilidad en el procesamiento y reprocesamiento de datos. Por ejemplo, si una aplicación que consume datos se desconecta durante un período, los equipos quieren asegurarse de reanudar el procesamiento más adelante sin pérdida de datos. Kinesis Data Streams proporciona un período de retención predeterminado de 24 horas, lo que le permite seleccionar una marca de tiempo específica a partir de la cual comenzar a procesar registros. Con el retención extendida función, puede configurar el período de retención de datos para que sea de hasta 7 días.

Algunas industrias, como las de servicios financieros y la de atención médica, tienen requisitos de cumplimiento más estrictos, por lo que los clientes solicitaron períodos de retención de datos aún más largos para cumplir con estos requisitos. Por lo tanto, hicimos un seguimiento con almacenamiento a largo plazo que admite la retención de datos por hasta 1 año. Ahora, miles de clientes de Kinesis Data Streams utilizan estas funciones para hacer que sus aplicaciones de transmisión sean más resistentes y duraderas.

Mercado Libre, una plataforma de pagos y comercio electrónico líder en América Latina, confía en Kinesis Data Streams para impulsar su estrategia de transmisión de datos en torno al procesamiento de pagos, la experiencia del cliente y las operaciones.

“Con Amazon Kinesis Data Streams como núcleo, procesamos aproximadamente 70 mil millones de mensajes diarios distribuidos entre miles de productores de datos. Al aprovechar Kinesis Data Streams y Amazon DynamoDB Streams, hemos adoptado una arquitectura basada en eventos y podemos responder rápidamente a los cambios de datos”.

– Joaquín Fernández, Experto Senior en Software de Mercado Libre.

Acceda a sus datos sin importar dónde se encuentren

Nuestros clientes utilizan una amplia variedad de herramientas y aplicaciones, y los datos de una organización a menudo residen en muchos lugares. Por lo tanto, la capacidad de integrar fácilmente datos en una organización es crucial para obtener información oportuna. Los desarrolladores utilizan Kinesis Producer Library, Kinesis Client Library y AWS SDK para crear rápidamente aplicaciones personalizadas de producción y consumo de datos. Los clientes han ampliado sus productores de datos, desde microservicios hasta televisores inteligentes e incluso automóviles. Tenemos más de 40 integraciones con servicios de AWS y aplicaciones de terceros como Adobe Experience Platform y Databricks. Como se detalla en nuestro whitepaper Al crear una arquitectura moderna de transmisión de datos en AWS, Kinesis Data Streams sirve como columna vertebral para casos de uso sin servidor y en tiempo real, como personalización, información en tiempo real, Internet de las cosas (IoT) y arquitectura basada en eventos. Nuestra reciente integración con Desplazamiento al rojo de Amazon le permite incorporar cientos de megabytes de datos de Kinesis Data Streams a almacenes de datos en segundos. Para obtener más información sobre cómo utilizar esta integración para detectar fraude casi en tiempo real, consulte Detección de fraude casi en tiempo real mediante Amazon Redshift Streaming Ingestion con Amazon Kinesis Data Streams y Amazon Redshift ML.

Otra integración lanzada en 2023 es con Amazonas Monitron para potenciar la gestión del mantenimiento predictivo. Ahora puede transmitir datos de medición y los resultados de inferencia correspondientes a Kinesis Data Streams, coordinar el mantenimiento predictivo y crear un lago de datos de IoT. Para obtener más detalles, consulte Genere información procesable para la gestión de mantenimiento predictivo con Amazon Monitron y Amazon Kinesis.

A continuación, volvamos al caso de uso de la NHL en el que combinan IoT, transmisión de datos y aprendizaje automático.

NHL Edge IQ con tecnología de AWS está ayudando a acercar a los fanáticos a la acción con análisis avanzados y nuevas estadísticas de aprendizaje automático, como probabilidad de enfrentamiento y análisis de oportunidades.

“Utilizamos Amazon Kinesis Data Streams para procesar datos NHL EDGE sobre las posiciones del disco y del jugador, la ubicación de los enfrentamientos y la situación actual del juego para desacoplar a los productores de datos de las aplicaciones consumidoras. Amazon Managed Service para Apache Flink se utiliza para ejecutar aplicaciones Flink y consume datos de Kinesis Data Streams para llamar al modelo de predicción en Amazon SageMaker para entregar la métrica de probabilidad de enfrentamiento en tiempo real. Los resultados de probabilidad también se almacenan en Amazon S3 para volver a entrenar continuamente el modelo en SageMaker. El éxito de este proyecto nos llevó a construir la siguiente métrica, Análisis de oportunidades, que ofrece más de 25 conocimientos sobre la calidad de la oportunidad de gol que presenta cada disparo a portería. Kinesis Data Streams y Amazon Managed Service para aplicaciones Apache Flink fueron fundamentales para realizar predicciones en vivo durante los juegos, lo que permitió al sistema realizar cálculos de análisis de oportunidades para hasta 16 juegos en vivo de la NHL simultáneamente”.

– Eric Schneider, vicepresidente senior de ingeniería de software de la Liga Nacional de Hockey.

Haz clic aquí para más información sobre la ejemplo.

El futuro de los datos es el tiempo real

La fusión de la transmisión de datos en tiempo real y la IA generativa promete ser la piedra angular de nuestro mundo conectado digitalmente. La IA generativa, potenciada por un flujo constante de información en tiempo real procedente de dispositivos IoT, sensores, redes sociales y más, se está volviendo omnipresente. Desde vehículos autónomos que navegan por condiciones de tráfico que cambian dinámicamente hasta ciudades inteligentes que optimizan el consumo de energía en función de la demanda en tiempo real, la combinación de IA y datos en tiempo real respaldará la eficiencia y la innovación en todas las industrias. Ubicadas, adaptables y profundamente integradas en nuestras vidas, estas aplicaciones impulsadas por IA mejorarán la conveniencia y abordarán desafíos críticos como el cambio climático, la atención médica y la respuesta a desastres mediante el uso de la riqueza de conocimientos en tiempo real a su disposición. Con Kinesis Data Streams, las organizaciones pueden construir una base de datos sólida, posicionándola para adoptar rápidamente nuevas tecnologías y desbloquear nuevas oportunidades antes, lo que anticipamos será enorme.

Más información sobre lo que nuestros clientes están haciendo con la transmisión de datos. Si desea una exploración rápida de los conceptos y casos de uso de Kinesis Data Streams, consulte nuestra Lista de reproducción Amazon Kinesis Data Streams 101. Para comenzar a crear sus flujos de datos, visite el Guía para desarrolladores de Amazon Kinesis Data Streams.


Acerca del autor.

Roy (KDS) Wang es gerente senior de productos en Amazon Kinesis Data Streams. Le apasiona aprender y colaborar con los clientes para ayudar a las organizaciones a funcionar de forma más rápida e inteligente. Fuera del trabajo, Roy se esfuerza por ser un buen padre para su nuevo hijo y construye maquetas de plástico.

punto_img

Información más reciente

punto_img