Logotipo de Zephyrnet

Por qué el auge de los LLM y GenAI requiere un nuevo enfoque para el almacenamiento de datos – DATAVERSITY

Fecha:

La nueva ola de operaciones y soluciones de seguridad impulsadas por el aprendizaje automático (ML) y la IA generativa (GenAI) ha aumentado la urgencia de que las empresas adopten nuevos enfoques para el almacenamiento de datos. Estas soluciones necesitan acceso a grandes cantidades de datos para el entrenamiento y la observabilidad del modelo. Sin embargo, para tener éxito, los canales de aprendizaje automático deben utilizar plataformas de datos que ofrezcan almacenamiento de datos “en caliente” a largo plazo (donde todos los datos sean fácilmente accesibles para consultas y ejecuciones de capacitación) a precios de almacenamiento en frío.

Lamentablemente, muchas plataformas de datos son demasiado caras para la retención de datos a gran escala. Las empresas que ingieren terabytes de datos diariamente a menudo se ven obligadas a trasladar rápidamente esos datos a un almacenamiento en frío (o descartarlos por completo) para reducir costos. Este enfoque nunca ha sido ideal, pero es una situación que se vuelve aún más problemática en la era de la IA porque esos datos pueden usarse para carreras de entrenamiento valiosas.

Este artículo destaca la urgencia de una revisión estratégica de la infraestructura de almacenamiento de datos para su uso por grandes modelos de lenguaje (LLM) y ML. Las soluciones de almacenamiento deben ser al menos un orden de magnitud menos costosas que las tradicionales sin sacrificar la escalabilidad o el rendimiento. También deben diseñarse para utilizar arquitecturas cada vez más populares basadas en la nube y basadas en eventos. 

La demanda de datos de ML y GenAI

El principio es sencillo: cuantos más datos de calidad estén disponibles, más eficaces serán los modelos de aprendizaje automático y los productos asociados. Los conjuntos de datos de entrenamiento más grandes tienden a correlacionarse con una mayor precisión de generalización: la capacidad de un modelo para hacer predicciones precisas sobre datos nuevos e invisibles. Más datos pueden crear conjuntos para entrenamiento, validación y conjuntos de prueba. La generalización, en particular, es vital en contextos de seguridad donde las amenazas cibernéticas mutan rápidamente y una defensa eficaz depende de reconocer estos cambios. El mismo patrón también se aplica a industrias tan diversas como la publicidad digital y la exploración de petróleo y gas.

Sin embargo, la capacidad de manejar volúmenes de datos a escala no es el único requisito para las soluciones de almacenamiento. Los datos deben ser accesibles fácil y repetidamente para respaldar la naturaleza experimental e iterativa de la construcción y el entrenamiento de modelos. Esto garantiza que los modelos puedan perfeccionarse y actualizarse continuamente a medida que aprenden de nuevos datos y comentarios, lo que conduce a un rendimiento y una confiabilidad cada vez mejores. En otras palabras, los casos de uso de ML y GenAI requieren datos "calientes" a largo plazo.

Por qué ML y GenAI requieren datos interesantes 

Las soluciones de observabilidad y gestión de eventos e información de seguridad (SIEM) suelen segmentar los datos en niveles fríos y calientes para reducir lo que de otro modo serían gastos prohibitivos para los clientes. Si bien el almacenamiento en frío es mucho más rentable que el almacenamiento en caliente, no está disponible para consultas. El almacenamiento en caliente es esencial para los datos integrales de las operaciones diarias que necesitan un acceso frecuente con tiempos de respuesta rápidos a las consultas, como bases de datos de clientes, análisis en tiempo real y registros de rendimiento de CDN. Por el contrario, el almacenamiento en frío actúa como un archivo rentable a expensas del rendimiento. El acceso y la consulta de datos fríos es lento. Transferirlo nuevamente al nivel activo a menudo lleva horas o días, lo que lo hace inadecuado para los procesos experimentales e iterativos involucrados en la creación de aplicaciones habilitadas para ML.

Los equipos de ciencia de datos trabajan en fases, incluido el análisis exploratorio, la ingeniería y la capacitación de funciones y el mantenimiento de los modelos implementados. Cada fase implica un constante refinamiento y experimentación. Cualquier retraso o fricción operativa, como la recuperación de datos del almacenamiento en frío, aumenta el tiempo y los costos de desarrollo de productos habilitados para IA de alta calidad.

Las compensaciones debidas a los altos costos de almacenamiento

Las plataformas como Splunk, si bien son valiosas, se perciben como costosas. Según sus precios en AWS Marketplace, retener un gigabyte de datos activos durante un mes puede costar alrededor de 2.19 dólares. Compare eso con el almacenamiento de objetos de AWS S3, donde los costos comienzan en $0.023 por GB. Aunque estas plataformas añaden valor a los datos mediante la indexación y otros procesos, la cuestión fundamental persiste: el almacenamiento en estas plataformas es caro. Para gestionar los costos, muchas plataformas adoptan políticas agresivas de retención de datos, manteniendo los datos en almacenamiento activo durante 30 a 90 días (y a menudo tan solo siete días) antes de eliminarlos o transferirlos al almacenamiento en frío, donde la recuperación puede tardar hasta 24 horas.

Cuando los datos se trasladan al almacenamiento en frío, normalmente se convierten en datos oscuros: datos que se almacenan y se olvidan. Pero aún peor es la destrucción total de datos. A menudo promovidas como mejores prácticas, estas incluyen muestreo, resumen y descarte de características (o campos), todo lo cual reduce el valor de los datos frente al entrenamiento de modelos de ML.

La necesidad de un nuevo modelo de almacenamiento de datos

Los servicios actuales de observabilidad, SIEM y almacenamiento de datos son fundamentales para las operaciones comerciales modernas y justifican una parte importante de los presupuestos corporativos. Una enorme cantidad de datos pasa a través de estas plataformas y luego se pierde, pero hay muchos casos de uso en los que deben conservarse para proyectos LLM y GenAI. Sin embargo, si los costos del almacenamiento de datos activos no se reducen significativamente, obstaculizarán el desarrollo futuro de productos habilitados para LLM y GenAI. Las arquitecturas emergentes que separan y desacoplan el almacenamiento permiten un escalamiento independiente de la informática y el almacenamiento y proporcionan un alto rendimiento de consultas, lo cual es crucial. Estas arquitecturas ofrecen un rendimiento similar al de las unidades de estado sólido a precios cercanos a los del almacenamiento de objetos. 

En conclusión, el principal desafío de esta transición no es técnico sino económico. Los proveedores actuales de soluciones de observabilidad, SIEM y almacenamiento de datos deben reconocer las barreras financieras en sus hojas de ruta de productos de IA e integrar tecnologías de almacenamiento de datos de próxima generación en su infraestructura. Transformar la economía del big data ayudará a aprovechar el potencial de la seguridad y la observabilidad impulsadas por la IA.

punto_img

Información más reciente

punto_img