Logotipo de Zephyrnet

Detección de anomalías en el aprendizaje automático: búsqueda de valores atípicos para la optimización de funciones empresariales – Blog de IBM

Fecha:


Detección de anomalías en el aprendizaje automático: búsqueda de valores atípicos para la optimización de funciones empresariales – Blog de IBM



Persona frente a una pizarra blanca

A medida que las organizaciones recopilan conjuntos de datos más grandes con información potencial sobre la actividad empresarial, detectar datos anómalos o valores atípicos en estos conjuntos de datos es esencial para descubrir ineficiencias, eventos raros, la causa raíz de los problemas u oportunidades de mejoras operativas. Pero ¿qué es una anomalía y por qué es importante detectarla?

Los tipos de anomalías varían según la empresa y la función comercial. Detección de anomalías simplemente significa definir patrones y métricas “normales” (basados ​​en funciones y objetivos comerciales) e identificar puntos de datos que quedan fuera del comportamiento normal de una operación. Por ejemplo, un tráfico superior al promedio en un sitio web o aplicación durante un período determinado puede indicar una la seguridad cibernética amenaza, en cuyo caso querrá un sistema que pueda activar automáticamente alertas de detección de fraude. También podría ser simplemente una señal de que una iniciativa de marketing en particular está funcionando. Las anomalías no son intrínsecamente malas, pero ser conscientes de ellas y tener datos para ponerlas en contexto es fundamental para comprender y proteger su negocio.

El desafío para los departamentos de TI que trabajan en ciencia de datos es dar sentido a los puntos de datos en expansión y en constante cambio. En este blog repasaremos cómo se aprovechan las técnicas de aprendizaje automático, impulsadas por inteligencia artificial, para detectar comportamientos anómalos a través de tres métodos diferentes de detección de anomalías: detección de anomalías supervisada, detección de anomalías no supervisada y detección de anomalías semisupervisada.

Aprendizaje supervisado

Las técnicas de aprendizaje supervisado utilizan datos de entrada y salida del mundo real para detectar anomalías. Estos tipos de sistemas de detección de anomalías requieren que un analista de datos etiquete los puntos de datos como normales o anormales para usarlos como datos de entrenamiento. Un modelo de aprendizaje automático entrenado con datos etiquetados podrá detectar valores atípicos en función de los ejemplos que se le brinden. Este tipo de aprendizaje automático es útil en la detección de valores atípicos conocidos, pero no es capaz de descubrir anomalías desconocidas ni predecir problemas futuros.

Los algoritmos de aprendizaje automático comunes para el aprendizaje supervisado incluyen:

  • Algoritmo K-vecino más cercano (KNN): Este algoritmo es un clasificador basado en densidad o una herramienta de modelado de regresión que se utiliza para la detección de anomalías. El modelado de regresión es una herramienta estadística que se utiliza para encontrar la relación entre datos etiquetados y datos variables. Funciona asumiendo que se encontrarán puntos de datos similares cerca unos de otros. Si un punto de datos aparece más lejos de una sección densa de puntos, se considera una anomalía.
  • Factor de valores atípicos locales (LOF): El factor de valores atípicos locales es similar a KNN en que es un algoritmo basado en densidad. La principal diferencia es que mientras KNN hace suposiciones basadas en los puntos de datos más cercanos, LOF utiliza los puntos más alejados para sacar sus conclusiones. 

Aprendizaje sin supervisión

Las técnicas de aprendizaje no supervisadas no requieren datos etiquetados y pueden manejar conjuntos de datos más complejos. El aprendizaje no supervisado está impulsado por deep learning y redes neuronales o codificadores automáticos que imitan la forma en que las neuronas biológicas se envían señales entre sí. Estas poderosas herramientas pueden encontrar patrones a partir de datos de entrada y hacer suposiciones sobre qué datos se perciben como normales.

Estas técnicas pueden ser de gran ayuda para descubrir anomalías desconocidas y reducir el trabajo de examinar manualmente grandes conjuntos de datos. Sin embargo, los científicos de datos deberían monitorear los resultados recopilados mediante el aprendizaje no supervisado. Debido a que estas técnicas hacen suposiciones sobre los datos que se ingresan, es posible que etiqueten anomalías incorrectamente.

Aprendizaje automático Los algoritmos para datos no estructurados incluyen:

K-significa: Este algoritmo es una técnica de visualización de datos que procesa puntos de datos a través de una ecuación matemática con la intención de agrupar puntos de datos similares. Las “medias”, o datos promedio, se refieren a los puntos en el centro del grupo con los que están relacionados todos los demás datos. A través del análisis de datos, estos grupos se pueden utilizar para encontrar patrones y hacer inferencias sobre datos que se encuentran fuera de lo común. 

Bosque de aislamiento: Este tipo de algoritmo de detección de anomalías utiliza datos no supervisados. A diferencia de las técnicas de detección de anomalías supervisadas, que funcionan a partir de puntos de datos normales etiquetados, esta técnica intenta aislar las anomalías como primer paso. Similar a un “bosque al azar”, crea “árboles de decisión”, que trazan los puntos de datos y seleccionan aleatoriamente un área para analizar. Este proceso se repite y cada punto recibe una puntuación de anomalía entre 0 y 1, según su ubicación con respecto a los otros puntos; los valores inferiores a 5 generalmente se consideran normales, mientras que los valores que superan ese umbral tienen más probabilidades de ser anómalos. Los modelos de bosque de aislamiento se pueden encontrar en la biblioteca gratuita de aprendizaje automático para Python. scikit-aprender.

Máquina de vectores de soporte (SVM) de una clase: Esta técnica de detección de anomalías utiliza datos de entrenamiento para establecer límites en torno a lo que se considera normal. Los puntos agrupados dentro de los límites establecidos se consideran normales y los que están fuera se etiquetan como anomalías.

Aprendizaje semi-supervisado

Los métodos de detección de anomalías semisupervisados ​​combinan los beneficios de los dos métodos anteriores. Los ingenieros pueden aplicar métodos de aprendizaje no supervisados ​​para automatizar el aprendizaje de funciones y trabajar con datos no estructurados. Sin embargo, al combinarlo con la supervisión humana, tienen la oportunidad de monitorear y controlar qué tipo de patrones aprende el modelo. Esto suele ayudar a que las predicciones del modelo sean más precisas.

Regresión lineal: Esta herramienta predictiva de aprendizaje automático utiliza variables dependientes e independientes. La variable independiente se utiliza como base para determinar el valor de la variable dependiente mediante una serie de ecuaciones estadísticas. Estas ecuaciones utilizan datos etiquetados y no etiquetados para predecir resultados futuros cuando solo se conoce parte de la información.

Casos de uso de detección de anomalías

La detección de anomalías es una herramienta importante para mantener las funciones comerciales en diversas industrias. El uso de algoritmos de aprendizaje supervisados, no supervisados ​​y semisupervisados ​​dependerá del tipo de datos que se recopilen y del desafío operativo que se resuelva. Ejemplos de casos de uso de detección de anomalías incluyen: 

Casos de uso de aprendizaje supervisado:

Mercado

El uso de datos etiquetados de los totales de ventas del año anterior puede ayudar a predecir objetivos de ventas futuros. También puede ayudar a establecer puntos de referencia para empleados de ventas específicos en función de su desempeño anterior y las necesidades generales de la empresa. Como se conocen todos los datos de ventas, se pueden analizar patrones para obtener información sobre los productos, el marketing y la estacionalidad.

Predicción del tiempo

Al utilizar datos históricos, los algoritmos de aprendizaje supervisado pueden ayudar en la predicción de patrones climáticos. El análisis de datos recientes relacionados con la presión barométrica, la temperatura y la velocidad del viento permite a los meteorólogos crear pronósticos más precisos que tienen en cuenta las condiciones cambiantes.

Casos de uso de aprendizaje no supervisado:

Sistema de detección de intrusos

Este tipo de sistemas vienen en forma de software o hardware, que monitorean el tráfico de la red en busca de signos de violaciones de seguridad o actividad maliciosa. Se pueden entrenar algoritmos de aprendizaje automático para detectar posibles ataques a una red en tiempo real, protegiendo la información del usuario y las funciones del sistema.

Estos algoritmos pueden crear una visualización del rendimiento normal basada en datos de series temporales, que analiza puntos de datos en intervalos establecidos durante un período de tiempo prolongado. Los picos en el tráfico de la red o los patrones inesperados se pueden señalar y examinar como posibles violaciones de seguridad.

Elaboración

Asegurarse de que la maquinaria funcione correctamente es crucial para fabricar productos, optimizar el control de calidad y mantener las cadenas de suministro. Los algoritmos de aprendizaje no supervisados ​​se pueden utilizar para el mantenimiento predictivo tomando datos sin etiquetar de sensores conectados al equipo y haciendo predicciones sobre posibles fallas o mal funcionamiento. Esto permite a las empresas realizar reparaciones antes de que se produzca una avería crítica, lo que reduce el tiempo de inactividad de la máquina.

Casos de uso de aprendizaje semisupervisado:

Atención Médica

Utilizando algoritmos de aprendizaje automático, los profesionales médicos pueden etiquetar imágenes que contienen enfermedades o trastornos conocidos. Sin embargo, debido a que las imágenes varían de persona a persona, es imposible etiquetar todas las posibles causas de preocupación. Una vez entrenados, estos algoritmos pueden procesar información del paciente y hacer inferencias en imágenes sin etiquetar y señalar posibles motivos de preocupación.

Detección de fraude

Los algoritmos predictivos pueden utilizar un aprendizaje semisupervisado que requiere datos etiquetados y no etiquetados para detectar fraude. Debido a que la actividad de la tarjeta de crédito de un usuario está etiquetada, se puede utilizar para detectar patrones de gasto inusuales.

Sin embargo, las soluciones de detección de fraude no se basan únicamente en transacciones previamente etiquetadas como fraude; también pueden hacer suposiciones basadas en el comportamiento del usuario, incluida la ubicación actual, el dispositivo de inicio de sesión y otros factores que requieren datos sin etiquetar.

Observabilidad en la detección de anomalías.

La detección de anomalías está impulsada por soluciones y herramientas que brindan una mayor observabilidad de los datos de rendimiento. Estas herramientas permiten identificar rápidamente anomalías, lo que ayuda a prevenir y solucionar problemas. IBM® Instana™ Observability aprovecha la inteligencia artificial y el aprendizaje automático para brindar a todos los miembros del equipo una imagen detallada y contextualizada de los datos de rendimiento, lo que ayuda a predecir con precisión y solucionar errores de manera proactiva.

IBM watsonx.ai™ ofrece una poderosa herramienta de IA generativa que puede analizar grandes conjuntos de datos para extraer información significativa. A través de un análisis rápido y completo, IBM watson.ai puede identificar patrones y tendencias que pueden usarse para detectar anomalías actuales y hacer predicciones sobre valores atípicos futuros. Watson.ai se puede utilizar en todas las industrias para una variedad de necesidades comerciales.

Explore la observabilidad de IBM Instana

Explorar IBM watsonx.ai


Más de Automatización




Por qué no debería utilizar Global Anycast DNS en China

3 min leerAnycast es una característica estándar de todos los servicios DNS autorizados. Tiene sentido: las consultas entrantes siempre deben dirigirse a los mejores servidores disponibles, normalmente los que están geográficamente más cerca. Sin embargo, hay una excepción flagrante: China. Internet en China continental está aislado del resto del mundo. Cualquier consulta de DNS que entre o salga de China continental debe pasar por una serie de filtros y otros controles antes de poder enviarse para su resolución.…




Solucione problemas de su red con DNS Insights

4 min leerEs relativamente sencillo ver que algo anda mal con su red utilizando datos DNS. Un aumento en las respuestas de NXDOMAIN u otros errores generalmente sirven como una indicación clara de que algo anda mal. El siguiente paso (diagnosticar el origen del problema y luego hacer algo al respecto) suele ser un esfuerzo más complicado. Es un problema de datos. Cualquier proveedor de DNS autorizado que se precie le mostrará cuántas respuestas de NXDOMAIN está recibiendo. Sin embargo, pocos ofrecen el...




Cómo optimizar el rendimiento de las aplicaciones con la dirección del tráfico NS1

2 min leer“¡Lo quiero ahora!”. Esta no es sólo una frase que cantan los niños mimados; es lo que exigimos cada vez que hacemos clic en un enlace, transmitimos contenido de vídeo o accedemos a una aplicación en línea. A medida que el tráfico de Internet crece en volumen y complejidad, aumentan nuestras expectativas de tiempos de respuesta más rápidos de los servicios y contenidos que utilizamos. A menudo hacemos clic si no se proporcionan resultados instantáneos. Para las empresas que ofrecen aplicaciones y servicios, la enorme urgencia del “ahora” es un dolor de cabeza logístico. El tráfico de Internet debe navegar de forma diferente…




¿Qué son los datos del ron y por qué son importantes?

3 min leer¿Qué son los datos RON? Al contrario de lo que se podría pensar, los datos de RUM no son un indicador de desempeño para Captain Morgan, el turismo cubano o una franquicia cinematográfica de Disney. Los datos de Real User Monitoring (RUM) son información sobre cómo las personas interactúan con aplicaciones y servicios en línea. Piense en ello como una encuesta siempre activa y en tiempo real sobre lo que sus usuarios experimentan en línea. Los datos RUM son un componente crítico para optimizar el rendimiento de las aplicaciones y servicios en línea. Analizando información sobre hacia dónde se dirigen los usuarios y…

Boletines informativos de IBM

Obtenga nuestros boletines y actualizaciones de temas que brindan el liderazgo intelectual más reciente y conocimientos sobre tendencias emergentes.

Subscribirme Ahora

Más boletines

punto_img

Información más reciente

punto_img