Logotipo de Zephyrnet

9 predicciones de datos en 2023

Fecha:

Ayer, en el Cumbre de impacto de Montecarlo Compartí mis 9 predicciones para datos en 2023. Aquí están las diapositivas Y los he incrustado a continuación.

Estas son mis 9 predicciones. Dentro de un año, los anotaré para ver cómo me fue.

  1. Los almacenes de datos en la nube (CDW) procesarán el 75 % de las cargas de trabajo para 2024. En los últimos cinco años, los CDW han crecido del 20 % de las cargas de trabajo al 50 %, y las bases de datos locales constituyen el resto. Mientras tanto, la industria ha crecido de $36 mil millones a $80 mil millones durante ese tiempo.
  2. Las cargas de trabajo de datos se segmentarán por caso de uso en tres grupos. Primero, las bases de datos en memoria como PatoDB crecerá para dominar el análisis local incluso para archivos masivos. Los CDW conservarán los usos clásicos de BI y exploración. Los lagos de datos en la nube atenderán trabajos que operan con datos masivos y trabajos que no requieren la latencia más rápida, y lo hacen a la mitad del precio de almacenamiento.
  3. Las capas de métricas unificarán la pila de datos. Hoy en día, hay dos bifurcaciones diferentes en los datos. La primera bifurcación usa ETL para bombear datos a un CDW, luego a una herramienta de exploración de datos o BI. La segunda bifurcación, la pila de aprendizaje automático, es idéntica excepto por los resultados: servicio de modelos y entrenamiento de modelos. La capa de métricas se convertirá en el único lugar en el que se definen las métricas y las características, unificando la pila y moviendo potencialmente el servicio y la capacitación del modelo a la base de datos.
  4. Los grandes modelos de aprendizaje automático de lenguajes cambiarán el papel de los ingenieros de datos. Grabé un video de mí mismo escribiendo código para producir gráficos y lo incrusté en la presentación. El video muestra a Github Copilot creando mágicamente un gráfico para el crecimiento de estrellas de DuckDB. Copilot ingiere un comentario, escribe el código e incluso agrega mi función de tema personalizado. Cuando ejecuto el código, funciona. Tecnologías como esta llevarán el trabajo de ingeniería de datos a un plano superior de abstracción.
  5. WebAssembly o WASM se convertirán en una parte esencial de las aplicaciones de datos orientadas al usuario final. WASM es una tecnología que acelera el software del navegador. Las páginas se cargan más rápido, el procesamiento de datos es más rápido y los usuarios están más contentos. Todos los principales navegadores son compatibles con WASM y, en consecuencia, cualquier persona que produzca una aplicación de datos para un usuario final la utilizará.
  6. Los cuadernos ganarán el 20% de los usuarios de Excel. De los usuarios globales de Excel 1b, el 20% se convertirán en prosumidores, escribiendo Python/SQL para analizar datos. Lo harán en cuadernos como Jupyter, que son fácilmente compartidos, reproducibles y con control de versiones. Esos portátiles se convertirán en aplicaciones de datos utilizadas por los usuarios finales dentro de las empresas, reemplazando las frágiles hojas de cálculo de Excel y Google.
  7. Las aplicaciones SaaS utilizarán la CDW como backend para lectura y escritura. Hoy en día, los datos de ventas, marketing y finanzas existen en sistemas dispares. Los sistemas ETL usan API para enviar esos datos al CDW para su análisis. En el futuro, los productos de software crearán sus aplicaciones sobre el CDW para aprovechar la seguridad centralizada, los procesos de adquisición más rápidos y los datos adyacentes. Estos sistemas también volverán a escribir en el CDW.
  8. La observabilidad de datos se convierte en imprescindible. Los ingenieros de software miden el éxito de sus esfuerzos a través del tiempo de actividad. 99.9% o tres nueves de tiempo de actividad significa solo 1 incidente por 1000 horas. Los equipos de datos de hoy ven 70 incidentes por cada 1000 tablas. Los equipos de datos se alinearán con las métricas de tiempo de actividad/precisión de datos y conducirán al equivalente de tres nueves, utilizando herramientas de observación de datos para medir su rendimiento.
  9. La década de los datos continúa. Las nuevas empresas de datos recaudaron más de $ 60 mil millones en total en 2021, más del 20% de todos los dólares de riesgo recaudados. Todavía estamos en las primeras entradas de este movimiento fundacional.

Gracias al equipo de Monte Carlo por la oportunidad y al público por las excelentes preguntas al final. Publicaré el video de la presentación cuando esté en vivo.

punto_img

Información más reciente

punto_img