Logotipo de Zephyrnet

Amazon OpenSearch Serverless ahora admite la eliminación automática de datos basada en el tiempo | Servicios web de Amazon

Fecha:

Recientemente anunciamos una nueva mejora en OpenSearch Serverless para administrar la retención de datos de índices y colecciones de series temporales. OpenSearch sin servidor para Servicio Amazon OpenSearch hace que sea sencillo ejecutar cargas de trabajo de búsqueda y análisis sin tener que pensar en la gestión de la infraestructura. Con la nueva función de eliminación automatizada de datos basada en el tiempo, puede especificar cuánto tiempo desean retener los datos y OpenSearch Serverless administra automáticamente el ciclo de vida de los datos en función de esta configuración.

Para analizar datos de series temporales, como registros de aplicaciones y eventos en OpenSearch, debe crear e incorporar datos en índices. Normalmente, estos registros se generan continuamente y se incorporan con frecuencia, por ejemplo cada pocos minutos, en OpenSearch. Grandes volúmenes de registros pueden consumir muchos de los recursos disponibles, como el almacenamiento en los clústeres, y, por lo tanto, deben administrarse de manera eficiente para maximizar el rendimiento óptimo. Puede gestionar el ciclo de vida de los datos indexados utilizando herramientas automatizadas para crear índices diarios. Luego puede usar secuencias de comandos para rotar los datos indexados del almacenamiento primario en clústeres a un almacenamiento remoto secundario para mantener el rendimiento y controlar los costos, y luego eliminar los datos antiguos después de un cierto período de retención.

La nueva función de eliminación automatizada de datos basada en el tiempo en OpenSearch Serverless minimiza la necesidad de crear y administrar manualmente índices diarios o escribir scripts del ciclo de vida de los datos. Ahora puede crear un índice único y OpenSearch Serverless se encargará de crear automáticamente una colección de índices con marca de tiempo en una agrupación lógica. Solo necesita configurar las políticas de retención de datos deseadas para sus recopilaciones de datos de series temporales. Luego, OpenSearch Serverless transferirá de manera eficiente los índices del almacenamiento primario a Amazon Simple Storage Service (Amazon S3) a medida que envejecen y eliminará automáticamente los datos antiguos según las políticas de retención configuradas, lo que reducirá la sobrecarga operativa y ahorrará costos.

En esta publicación, analizamos las nuevas políticas del ciclo de vida de los datos y cómo comenzar con estas políticas en OpenSearch Serverless.

Descripción general de la solución

Considere un caso de uso en el que la empresa ficticia Octank Broker recopila registros de sus servicios web y los ingiere en OpenSearch Serverless para analizar la disponibilidad del servicio. La empresa está interesada en realizar un seguimiento del acceso web y la causa raíz cuando se detectan fallos con los tipos de error 4xx y 5xx. Generalmente, los problemas del servidor son de interés en un plazo inmediato, digamos en unos días. Después de 30 días, estos registros ya no son de interés.

Octank quiere conservar sus datos de registro durante 7 días. Si las colecciones o índices están configurados para una retención de datos de 7 días, luego de 7 días, OpenSearch Serverless elimina los datos. Los índices ya no están disponibles para la búsqueda. Nota: Los recuentos de documentos en los resultados de búsqueda pueden reflejar datos marcados para su eliminación durante un breve período.

Puede configurar la retención de datos creando una política de ciclo de vida de los datos. El tiempo de retención puede ser ilimitado o puede proporcionar un período de tiempo específico en Días y Horas con una retención mínima de 24 horas y un máximo de 10 años. Si el tiempo de retención es ilimitado, como su nombre indica, no se elimina ningún dato.

Para comenzar a utilizar políticas de ciclo de vida de datos en OpenSearch Serverless, puede seguir los pasos descritos en esta publicación.

Requisitos previos

Esta publicación asume que ya ha configurado una colección OpenSearch Serverless. Si no, consulte Análisis de registros de forma fácil con Amazon OpenSearch Serverless para obtener instrucciones.

Crear una política de ciclo de vida de datos

Puede crear una política de ciclo de vida de datos desde Consola de administración de AWS, la Interfaz de línea de comandos de AWS (CLI de AWS), Formación en la nube de AWS, Kit de desarrollo en la nube de AWS (AWS CDK), y Terraform. Para crear una política de ciclo de vida de datos a través de la consola, complete los siguientes pasos:

  • En la consola del servicio OpenSearch, seleccione Políticas de ciclo de vida de datos bajo Sin servidor en el panel de navegación.
  • Elige Crear una política de ciclo de vida de datos.
  • Política de ciclo de vida de datos nombre, ingrese un nombre (por ejemplo, política-de-logs-web).
  • Elige Añada bajo Ciclo de vida de los datos.
  • under colección de fuentes, elija la colección a la que desea aplicar la política (por ejemplo, colección de registros web).
  • under Índices, ingrese el índice o los patrones de índice para aplicar la duración de retención (por ejemplo, registros web).
  • under Retención de datosdeshabilitar Ilimitada (para configurar la retención específica para el patrón de índice que definió).
  • Ingrese las horas o días después de los cuales desea eliminar datos de Amazon S3.
  • Elige Crear.

El siguiente gráfico ofrece una demostración rápida de la creación de políticas de ciclo de vida de OpenSearch Serverless Data mediante los pasos anteriores.

Ver la política del ciclo de vida de los datos

Después de haber creado la política de ciclo de vida de los datos, puede ver la política completando los siguientes pasos:

  • En la consola del servicio OpenSearch, seleccione Políticas de ciclo de vida de datos bajo Sin servidor en el panel de navegación.
  • Seleccione la política que desea ver (por ejemplo, política de registros web).
  • Elija el hipervínculo debajo Nombre de directiva.

Esta página le mostrará detalles como el patrón de índice y su período de retención para un índice y una colección específicos. El siguiente gráfico ofrece una demostración rápida de cómo ver las políticas del ciclo de vida de datos de OpenSearch Serverless mediante los pasos anteriores.

Actualizar la política del ciclo de vida de los datos.

Una vez que haya creado la política de ciclo de vida de los datos, puede modificarla y actualizarla para agregar más reglas. Por ejemplo, puede agregar otro patrón de índice o agregar una nueva colección con un nuevo patrón de índice para configurar la retención. El siguiente ejemplo muestra los pasos para agregar otra regla en la política para el índice syslog en syslogs-collection.

  • En la consola del servicio OpenSearch, seleccione Políticas de ciclo de vida de datos bajo Sin servidor en el panel de navegación.
  • Seleccione la política que desea editar (por ejemplo, política de registros web) y luego elija Editar.
  • Elige Añada bajo Ciclo de vida de los datos.
  • under Colección fuente, elija la colección que va a utilizar para configurar la política del ciclo de vida de los datos (por ejemplo, syslogs-collection).
  • under Índices, ingrese el índice o los patrones de índice para los que va a establecer la retención (por ejemplo, syslogs).
  • under Retención de datosdeshabilitar Ilimitada (para configurar la retención específica para el patrón de índice que definió).
  • Ingrese las horas o días después de los cuales desea eliminar datos de Amazon S3.
  • Elige Guardar.

El siguiente gráfico ofrece una demostración rápida de cómo actualizar las políticas de ciclo de vida de datos existentes mediante los pasos anteriores.

Eliminar la política de ciclo de vida de los datos

Elimine la política de ciclo de vida de datos existente con los siguientes pasos:

  • En la consola del servicio OpenSearch, seleccione Políticas de ciclo de vida de datos bajo Sin servidor en el panel de navegación.
  • Seleccione la política que desea editar (por ejemplo, política de registros web).
  • Elige Borrar.

Reglas de política del ciclo de vida de los datos

En una política de ciclo de vida de datos, usted especifica una serie de reglas. La política de ciclo de vida de los datos le permite administrar el período de retención de los datos asociados a índices o colecciones que coinciden con estas reglas. Estas reglas definen el período de retención de los datos en un índice o grupo de índices. Cada regla consta de un tipo de recurso (índice), un período de retención y una lista de recursos (índices) a los que se aplica el período de retención.

El período de retención se define con uno de los siguientes formatos:

  • “RetenciónMinIndex”: “24h” – OpenSearch Serverless conserva los datos del índice durante un período específico en horas o días. Puede configurar este período entre 24 horas (24h) y 3,650 días (3650d).
  • “NoMinIndexRetention”: verdadero – OpenSearch Serverless conserva los datos del índice de forma indefinida.

Cuando las reglas de políticas del ciclo de vida de los datos se superponen, dentro o entre políticas, la regla con un nombre de recurso o patrón más específico para un índice anula una regla con un nombre de recurso o patrón más general para cualquier índice que sea común a ambas reglas. Por ejemplo, en la siguiente política, se aplican dos reglas al índice index/sales/logstash. En esta situación, la segunda regla tiene prioridad porque index/sales/log* es la coincidencia más larga con index/sales/logstash. Por lo tanto, OpenSearch Serverless no establece ningún período de retención para el índice.

Resumen

Las políticas del ciclo de vida de los datos proporcionan una forma coherente y sencilla de gestionar índices en OpenSearch Serverless. Con las políticas de ciclo de vida de los datos, puede automatizar la gestión de datos y evitar errores humanos. La eliminación de datos no relevantes sin intervención manual reduce la carga operativa, ahorra costos de almacenamiento y ayuda a mantener el rendimiento del sistema para la búsqueda.


Sobre los autores

Prashant Agrawal es un arquitecto sénior de soluciones especializado en búsquedas en Amazon OpenSearch Service. Trabaja en estrecha colaboración con los clientes para ayudarlos a migrar sus cargas de trabajo a la nube y ayuda a los clientes existentes a ajustar sus clústeres para lograr un mejor rendimiento y ahorrar costos. Antes de unirse a AWS, ayudó a varios clientes a utilizar OpenSearch y Elasticsearch para sus casos de uso de análisis de registros y búsqueda. Cuando no está trabajando, puedes encontrarlo viajando y explorando nuevos lugares. En definitiva, le gusta hacer Comer → Viajar → Repetir.

satish nandi es gerente senior de productos en Amazon OpenSearch Service. Está centrado en OpenSearch Serverless y tiene años de experiencia en redes, seguridad y ML/AI. Tiene una licenciatura en Ciencias de la Computación y un MBA en Emprendimiento. En su tiempo libre le gusta pilotar aviones, hacer alas delta y andar en motocicleta.

punto_img

Información más reciente

punto_img