Logotipo de Zephyrnet

¿Cómo se utiliza el aprendizaje automático para la previsión de series temporales?

Fecha:

La previsión de series temporales es uno de los temas clave del aprendizaje automático. El hecho de que tantos problemas de predicción tengan un componente temporal lo hace crucial. En contraste con muchas otras tareas de predicción, los problemas de series de tiempo son más desafiantes ya que el componente de tiempo aporta más información.


Índice del contenido

¿Qué es el pronóstico de series de tiempo? 

El pronóstico de series de tiempo se emplea en varios sectores, incluidas las finanzas, la gestión de la cadena de suministro, la producción y la planificación de inventario, lo que lo convierte en uno de los enfoques de ciencia de datos más utilizados. La previsión de series temporales tiene muchas aplicaciones, incluida la asignación de recursos, la planificación empresarial, las previsiones meteorológicas y la predicción del precio de las acciones.

Los modelos predictivos basados ​​en el aprendizaje automático se utilizaron ampliamente en proyectos de series temporales que necesitaban varias empresas para facilitar la predicción de la asignación de tiempo y recursos. Esta publicación comparte nuestra perspectiva sobre el trabajo en proyectos de aprendizaje profundo para la previsión de series temporales.

Aplicaciones de pronóstico de series temporales de aprendizaje automático

La previsión de series temporales puede ser utilizada por cualquier empresa u organización que trabaje con datos generados de forma continua y con el requisito de ajustarse a los cambios y turnos operativos. Aquí, el aprendizaje automático actúa como el mayor habilitador, mejorando nuestra capacidad para:

  • Pronóstico de tráfico web: Para pronosticar las tasas de tráfico en línea durante ciertos períodos, los datos comunes sobre las tasas de tráfico típicas entre los sitios web de la competencia se combinan con los datos de entrada sobre las tendencias relacionadas con el tráfico.
  • Pronóstico de ventas y demanda: Los datos del patrón de comportamiento del cliente, en combinación con las entradas del historial de compras, el historial de demanda, la influencia estacional, etc., permiten que los modelos de aprendizaje automático identifiquen los artículos más demandados y señalen su ubicación en el mercado dinámico.
  • Predicción del tiempo: Los datos basados ​​en el tiempo se recopilan de forma rutinaria desde una variedad de estaciones meteorológicas conectadas en red a nivel mundial, y los enfoques de aprendizaje automático permiten un análisis e interpretación profundos de los datos para pronósticos futuros basados ​​en la dinámica estadística.
  • Pronóstico del precio de las acciones: Para hacer pronósticos precisos de los movimientos inminentes más probables de los precios de las acciones, se pueden integrar los datos históricos de los precios de las acciones con información sobre picos y disminuciones regulares y atípicos en el mercado de valores.
  • Pronósticos económicos y demográficos: La demografía y la economía tienen una tonelada de datos estadísticos que se pueden utilizar para pronosticar datos de series temporales de manera efectiva. En consecuencia, se puede determinar el mercado objetivo ideal y se pueden desarrollar las estrategias más efectivas para comunicarse con esa AT específica.
  • Académica: Los conceptos de aprendizaje automático y aprendizaje profundo aceleran enormemente los procesos de refinación y lanzamiento de ideas científicas. Por ejemplo, los datos científicos que deben pasar por ciclos analíticos infinitos pueden analizarse mucho más rápido con patrones de aprendizaje automático.

Pronóstico de series temporales en aprendizaje automático

Revisar qué series de tiempo, análisis de series de tiempo y pronósticos de series de tiempo están indicando antes de continuar es crucial.

Un proceso de pronóstico de series temporales es una colección de observaciones realizadas a lo largo del tiempo, ya sea diariamente, semanalmente, mensualmente o anualmente. Para caracterizar la serie temporal observada y comprender el "por qué" subyacente a su conjunto de datos, el análisis de series temporales implica la creación de modelos. Esto incluye hacer predicciones e interpretaciones basadas en los hechos disponibles. El modelo de mejor ajuste se utiliza en el pronóstico de series de tiempo para anticipar observaciones futuras basadas en datos actuales e históricos cuidadosamente procesados.

Pronóstico de series temporales y aprendizaje automático
Para utilizar un modelo de aprendizaje profundo adecuado para la previsión de series temporales, es fundamental comprender los elementos de los datos de series temporales.

Se demostró que la previsión de análisis de series temporales que utiliza el aprendizaje automático es la más exitosa para identificar patrones en datos estructurados y no estructurados.

Para utilizar un modelo de aprendizaje profundo adecuado para la previsión de series temporales, es fundamental comprender los elementos de los datos de series temporales:

  • Ciclicidad: Localizar las variaciones recurrentes en una serie temporal y determinar su carácter cíclico.
  • tendencias: Describir los patrones ascendentes o descendentes de series de tiempo que normalmente se muestran en modos lineales.
  • Estacionalidad: Llamar la atención sobre los ciclos de comportamiento recurrentes a lo largo del tiempo.
  • Ruido: Considerar el elemento no sistemático de la serie temporal que se desvía de los valores típicos del modelo.

Modelado de pronóstico de series de tiempo

Hay muchas técnicas utilizadas en el pronóstico de series de tiempo que intentan lograr precisión y reducir errores y pérdidas. Aún así, varias técnicas clásicas y contemporáneas de aprendizaje automático han demostrado su eficacia y uso computacional. Discutiremos varias formas diferentes de análisis de series de tiempo a continuación.

Los mejores modelos de aprendizaje automático para la previsión de series temporales

Para el pronóstico de series de tiempo, se puede utilizar una variedad de modelos. Por ejemplo, la Red LSTM es un tipo único de red neuronal que hace predicciones basadas en datos históricos. Es ampliamente utilizado para muchas cosas, incluido el análisis de series temporales y el reconocimiento de idiomas. Al agregar una serie de retrasos a la entrada, los modelos como el bosque aleatorio, el regresor de aumento de gradiente y las redes neuronales de retraso de tiempo pueden incluir información temporal y representar los datos en varios períodos de tiempo. Las TDNN se construyen como redes neuronales de avance en lugar de redes neuronales recurrentes debido a su naturaleza secuencial.



¿Cómo elegir un lenguaje de programación para su proyecto de aprendizaje automático?


modelo ingenuo

Los modelos ingenuos a menudo se implementan como un paseo aleatorio y un paseo aleatorio estacional, con el valor observado más reciente sirviendo como unidad para el pronóstico para el período siguiente (un pronóstico se realiza utilizando un valor del mismo período de tiempo que la observación más reciente). ).

Modelo de suavizado exponencial 

Una técnica de pronóstico de series de tiempo de suavizado exponencial se puede expandir para admitir datos con una tendencia sistemática o un componente estacional. Es una potente técnica de pronóstico que se puede emplear en lugar de la conocida familia de técnicas Box-Jenkins ARIMA.

Pronóstico de series temporales y aprendizaje automático
Los modelos predictivos basados ​​en aprendizaje automático se utilizaron ampliamente en proyectos de series temporales que necesitaban varias empresas para facilitar la predicción de la asignación de tiempo y recursos.

ARIMA/SARIMA

El acrónimo ARIMA representa la combinación de métodos autorregresivos (AR) y promedio móvil (MA) al crear un modelo de serie de tiempo compuesto. Los parámetros estacionales y de tendencia se incluyen en los modelos ARIMA (por ejemplo, variables ficticias para los días de la semana y su capacidad de diferenciación). Además, permiten la incorporación de promedios móviles y términos autorregresivos para manejar la autocorrelación subyacente en los datos.

La media móvil integrada autorregresiva estacional, o SARIMA, amplía el uso de ARIMA al integrar una mezcla lineal de valores estacionales pasados ​​y/o errores de pronóstico.

Método de regresión lineal 

El modelado predictivo se realiza con frecuencia mediante el sencillo método estadístico conocido como regresión lineal. Cuando se trata de lo esencial, se trata de proporcionar una ecuación de variables independientes en las que se basa nuestra variable objetivo.


Perceptrón multicapa (MLP)

El término “MLP” se usa de manera ambigua; a veces, se usa ampliamente para referirse a cualquier ANN feedforward y otras veces, se usa específicamente para describir redes formadas por varias capas de perceptrones.

Red neuronal recurrente (RNN)

Las RNN son esencialmente redes neuronales mejoradas con memoria que pueden anticipar objetivos dependientes del tiempo. Las redes neuronales recurrentes pueden recordar el estado de la entrada que se adquirió previamente para decidir el siguiente paso de tiempo. Las redes recurrentes han visto recientemente una serie de modificaciones que se aplicarán a muchos campos.

Memoria a corto plazo (LSTM)

Las celdas LSTM (celdas RNN especiales) se crearon para encontrar una solución al problema del gradiente al proporcionar al modelo varias puertas para elegir. Estas puertas permiten que el modelo decida qué información identificar como significativa y qué información ignorar. Otro tipo de red recurrente cerrada es la GRU.

Además de las técnicas mencionadas anteriormente, las CNN, también conocidas como modelos de redes neuronales convolucionales, los modelos basados ​​en árboles de decisión como Random Forest y las versiones de aumento de gradiente (LightGBM, CatBoost, etc.) se pueden usar para el pronóstico de series temporales.

Pronóstico de series temporales y aprendizaje automático
Es importante tener en cuenta que no siempre es posible determinar visualmente qué modelo de aprendizaje automático es el más preciso

Kaggle

Es posible realizar pronósticos efectivos de series temporales de tráfico web en el entorno de codificación y procesamiento de datos Kaggle. Este motor tiene características técnicas que un gran grupo de entusiastas ha agregado a lo largo de los años. Esto lo convierte en una herramienta útil para tratar el problema de la predicción del valor futuro de múltiples series de tiempo.

LuzGBM

Esta es una técnica popular de aprendizaje automático que se ocupa principalmente de identificar patrones complejos en conjuntos de datos tabulares. Como resultado, las estimaciones de datos de ventas son extremadamente precisas. Cuando se trata de crear pronósticos tabulares, LightGBM ocasionalmente funciona mejor que el método ARIMA tradicional.


Árboles de decisión

Los árboles de decisión basados ​​en el aprendizaje automático se utilizan para categorizar las cosas (productos) en la base de datos. Las clases generadas reciben modelos específicos de series temporales multivariantes que ayudan a pronosticar el precio futuro de un artículo. Este es obviamente el mejor para el análisis utilizado para los negocios.

XGBoost

La técnica de aprendizaje automático que se utiliza aquí opera en datos tabulares y estructurados. Los árboles de decisión potenciados por gradientes están en el corazón de esto. Los conjuntos de datos de series temporales se deben convertir en problemas de aprendizaje supervisado para usar con XGBoost. 


Encontrar lagunas con técnicas de aprendizaje automático


AdaBoost

Mucha gente considera que este tipo de algoritmo de pronóstico es el mejor clasificador listo para usar. Esto significa que funciona mejor cuando se combina con otros algoritmos efectivos para elaborar clasificaciones de datos. Por ejemplo, cuando se combina con árboles de decisión, aprende gradualmente a identificar las instancias de datos que son más difíciles de clasificar.

¿Cómo evaluar la precisión del modelo?

Es importante tener en cuenta que no siempre es posible determinar visualmente qué modelo de aprendizaje automático es el más preciso.

Al comparar la precisión general del pronóstico de varios modelos de pronóstico de series de tiempo, el método de cálculo del MAPE (Error porcentual absoluto medio) produce los mejores resultados.

Las métricas muestran el porcentaje de error absoluto promedio de la ocurrencia. El principio general de los cálculos para evaluar la precisión del modelo es el siguiente: cuanto mejor sea la precisión del pronóstico, menor será el MAPE.


El proceso de un proyecto de pronóstico de series de tiempo

Se están tomando las siguientes medidas para implementar el aprendizaje profundo para el pronóstico de series temporales para evitar cualquier efecto negativo y garantizar el éxito del proyecto en términos de creación del modelo de tiempo predictivo.

Definición del objetivo del proyecto

Asegúrese de comprender lo subjetivo antes de entrar en detalles sobre el proyecto. Implica comprender los detalles del dominio comercial de la operación de pronóstico, incluida la terminología y las definiciones importantes, así como los modelos comerciales típicos relevantes para el dominio específico. Por lo tanto, este paso requiere una investigación exhaustiva del tema para definir los detalles del proyecto.

Exploración de datos

Al definir los fundamentos, puede ver claramente la cantidad de datos que necesita recopilar para ayudar en el descubrimiento futuro de conocimientos de datos. La adquisición de conocimientos de dominio alcanza el nivel necesario para la exploración de datos estratégicos y la estimación de bisagras y tendencias para analizar más a fondo el volumen de variaciones con la implementación de la generación de gráficos de trama y gráficos de visualización. Además, ayuda a definir la tarea de pronóstico y completar con éxito la investigación exploratoria inicial.

Pronóstico de series temporales y aprendizaje automático
La previsión de series temporales tiene muchas aplicaciones potenciales, incluida la asignación de recursos, la planificación empresarial, las previsiones meteorológicas y la predicción del precio de las acciones.

Preparación de datos

El equipo de desarrollo actualmente está limpiando datos para encontrar información clave y eliminar variables importantes. Lanzamiento del procedimiento de preparación de datos de ingeniería de características. Apuntar a las áreas de conocimiento del dominio que son esenciales para crear nuevas características en un conjunto de datos existente es el elemento central de la ingeniería de características.

Método de pronóstico de series de tiempo

El equipo trabaja con numerosos modelos y selecciona uno en función de la relevancia y la precisión prevista de la predicción. Esto se hace con base en la preparación de datos preliminares y el análisis exploratorio de varios pronósticos de series de tiempo realizados en la etapa anterior. La construcción adecuada del modelo y la consideración de los factores necesarios dentro del proceso de pronóstico se aseguran ajustando el modelo al desempeño del proyecto.

Comparación de actuaciones

En este paso se tratan la optimización de los parámetros del modelo de pronóstico y los resultados de alto rendimiento. Los científicos de datos entrenan modelos de pronóstico con varios conjuntos de hiperparámetros mediante un procedimiento de ajuste de validación cruzada que indica la división de datos. Es necesario aplicar estimaciones de puntuación de rendimiento y evaluar una variedad de conjuntos de datos de prueba para finalizar este paso. Para adquirir una evaluación de rendimiento suficiente al procesar el tipo de datos específico, es crucial utilizar una técnica fuera de muestra.

Despliegue

La integración del modelo de pronóstico en producción es parte de esta etapa. En este punto, recomendamos encarecidamente crear una canalización para recopilar datos nuevos para las próximas funciones de IA. Ayuda en el trabajo de preparación de datos que debe realizar para las próximas tareas.


Pronóstico de series temporales y aprendizaje automático
La implementación de un proyecto de pronóstico de series de tiempo requiere el más alto calibre de desarrollo

Para obtener datos, los bucles iterativos incluyen una serie de pasos de exploración y visualización. Después de realizar la visualización, puede ser necesario dar un paso atrás y recopilar más información. Los modelos se modifican y actualizan a medida que se dispone de nueva información y nuevos conocimientos.

Como resultado, en esta etapa, el énfasis ahora está en desarrollar y mejorar uno o más modelos hasta que se alcance el nivel de desempeño necesario.

Desafíos de un proyecto de pronóstico de series de tiempo 

Nos gustaría discutir el conocimiento que hemos adquirido al trabajar en proyectos de pronóstico de series de tiempo e identificar cualquier dificultad potencial que el equipo de desarrollo pueda encontrar.


Falta de datos

La precisión de la predicción aumenta a medida que crece el tamaño de los conjuntos de datos porque el algoritmo tiene acceso a más datos de entrenamiento. Sin embargo, existen inconvenientes al emplear el aprendizaje automático cuando una variable de destino carece de datos históricos o de estacionalidad. Por lo tanto, la falta de datos podría conducir a una disminución general en la precisión de los pronósticos.


Comprensión de una arquitectura de canalización de aprendizaje automático


Falta de conocimiento del dominio.

La etapa de ingeniería de características, una parte crucial de la implementación de ML, parece correr un alto riesgo sin el conocimiento suficiente del dominio. En general, la experiencia en el dominio puede ayudar a la calidad del modelo de cualquier proyecto. Se necesita la experiencia de especialistas en nichos de negocios para evitar el problema causado por la falta de conocimiento del dominio.

Nuestras principales preocupaciones cuando trabajábamos en el proyecto de pronóstico del precio de las acciones estaban relacionadas con la heteroscedasticidad y la naturaleza caótica de los precios de las acciones, además de los problemas ya destacados.

Conclusión

La implementación de un proyecto de pronóstico de series de tiempo requiere el más alto nivel de desarrollo. La siguiente etapa de la previsión y la predicción basadas en datos es, sin duda, la previsión del aprendizaje automático. Además, no hay excusas para que una empresa o empresario deje pasar la oportunidad de utilizar las capacidades revolucionarias de ML para fortalecer el análisis de datos. Sin embargo, esta industria tiene varias trampas potenciales y desafíos aleatorios que solo un experto puede manejar.

punto_img

Información más reciente

punto_img