Logotipo de Zephyrnet

Cuatro nuevas características de Apache Cassandra 5.0 que le entusiasmarán – DATAVERSITY

Fecha:

Con la reciente lanzamiento beta de Apache Cassandra 5.0, ahora es un buen momento para que los equipos le den una vuelta y descubran las nuevas capacidades más interesantes y esperadas de 5.0. 

Mientras husmeaba con la nueva versión beta, aquí hay cuatro características introducidas con Cassandra 5.0 de código abierto que deberían entusiasmar a los equipos de desarrolladores:

1. Compatibilidad con vectores: presentación de la búsqueda de vectores, nuevas funciones y un nuevo tipo de datos vectoriales

Casandra 5.0 agrega Búsqueda de vectores, una nueva característica particularmente poderosa para encontrar contenido relevante dentro de grandes conjuntos de datos, junto con nuevas funciones CQL y un nuevo tipo de datos vectoriales que guarda y recupera vectores incrustados. Es importante destacar que para muchos, estas nuevas características hacen de Cassandra 5.0 una tecnología de capa de datos ideal para equipos que persiguen proyectos de IA/ML, proporcionando la funcionalidad específica que esos proyectos requieren junto con la alta disponibilidad, escalabilidad y beneficios de código abierto existentes de Cassandra. 

Para los modelos de aprendizaje automático, realizar comparaciones de similitudes es fundamental para comprender los datos y las conexiones de datos en contexto. Por ejemplo, aplicaciones de IA desde motores de recomendación de productos hasta IA generativa Los chatbots operan reconociendo patrones y extrapolando la toma de decisiones basándose en la similitud de nuevas entradas de datos y consultas con datos de entrenamiento existentes. Ser capaz de almacenar vectores de incrustaciones (matrices de números de punto flotante que comunican qué tan similares son objetos o entidades específicos entre sí) es clave para permitir esas comparaciones de similitud cruciales. Por lo tanto, Cassandra 5.0 es ahora una solución de referencia para el desarrollo de aplicaciones de IA.

2. Indexación asociada al almacenamiento

El nuevo Storage-Attached Indexing (SAI) de Cassandra 5.0 optimiza el ciclo de vida de los índices secundarios, al tiempo que los convierte en almacenes más eficientes y más fáciles de usar. SAI permite a los usuarios de Cassandra crear uno o más índices secundarios en una tabla de base de datos, y cada índice se basa en una única columna a elección del usuario.

Esta indexación a nivel de columnas altamente escalable y distribuida globalmente ofrece un rendimiento de E/S inigualable para la búsqueda, incluida la búsqueda vectorial. SAI también presenta extensibilidad modular, con Vector Search como demostración inicial de esta capacidad. Los índices SAI pueden capturar la semántica indexando tanto consultas como contenido (incluidas entradas grandes como documentos e imágenes) para lograr una funcionalidad de indexación excepcional.

3. Trie Memtables y SSTables indexadas por Trie

Los usuarios de Cassandra 5.0 pueden aprovechar importantes mejoras potenciales de rendimiento y optimización de la memoria que vienen con las nuevas Memtables y SSTables basadas en trie (árbol de prefijos) de esta versión. Si bien Cassandra es mejor conocida por su arquitectura distribuida, estos formatos de almacenamiento utilizan intentos y representaciones de claves de base de datos comparables en bytes para mejorar el rendimiento de Cassandra para operaciones de lectura y modificación, así como para dimensionar correctamente las estructuras de los datos. Trie Memtables y Trie-Indexed SSTables también reducen la carga de la administración de memoria y la recolección de basura, lo que simplifica la administración de sus datos para las organizaciones de gran escala.

El resultado final: estas características para reducir la sobrecarga de almacenamiento (al mismo tiempo que mejoran la escalabilidad y el rendimiento de escritura y lectura) ganarán la atención y el reconocimiento de los usuarios de Cassandra. 

4. Nuevas funciones matemáticas y de agregación

Cassandra 5.0 agrega nuevas funciones CQL nativas y la capacidad para que los usuarios creen sus propias funciones nuevas definidas por el usuario. Estas adiciones sirven para ampliar la velocidad y flexibilidad con la que los usuarios pueden lograr sus objetivos con Cassandra.

Las nuevas funciones de agregación nativas incluyen:

  • contar: encuentra cuántos elementos hay en una colección
  • max y min: encuentra los elementos máximos o mínimos de una colección
  • suma y promedio: encuentre la suma o el promedio de los elementos en una colección numérica

Las nuevas funciones nativas para operar en columnas de colección incluyen:

  • map_keys – Obtener las claves de un mapa
  • map_values: obtiene los valores de un mapa

Las nuevas funciones matemáticas nativas incluyen:

  • abs: devuelve el valor absoluto de x
  • exp – Devuelve el valor de e (la base de logaritmos naturales) a la potencia de la entrada
  • log: devuelve el logaritmo natural (base e) de la entrada
  • log10: devuelve el logaritmo en base 10 de la entrada
  • redondo: devuelve el número entero más cercano a la entrada

Darle una oportunidad

Aquellos interesados ​​en aprovechar las ventajas de Cassandra 5.0 destacadas aquí deberían probarlo por sí mismos y adelantarse a la curva cuando se trata de utilizar y optimizar Cassandra de código abierto.

punto_img

Información más reciente

punto_img