Las 5 mejores prácticas de aprendizaje automático recomendadas por expertos

El aprendizaje automático ha sido un tema de intensa publicidad mediática y cada vez más organizaciones adoptan esta tecnología para manejar sus tareas diarias. Los profesionales del aprendizaje automático pueden presentar la solución, pero mejorar el rendimiento del modelo puede ser un gran desafío a veces. Es algo que viene con la práctica y la experiencia. Incluso después de probar todas las estrategias, a menudo no logramos mejorar la precisión del modelo. Por lo tanto, este artículo está destinado a ayudar a los principiantes a mejorar la estructura de su modelo enumerando las mejores prácticas recomendadas por los expertos en aprendizaje automático.

1. Centrarse en los datos

La importancia de los datos no se puede ignorar en el mundo del aprendizaje automático. Tanto la calidad como la cantidad de los datos pueden conducir a un mejor rendimiento del modelo. A menudo lleva tiempo y es más complejo que crear los propios modelos de aprendizaje automático. Este paso a menudo se denomina preparación de datos. Se puede clasificar en los siguientes pasos:

Articulando el problema – Para evitar complicar demasiado su proyecto, intente obtener un conocimiento profundo del problema subyacente que está tratando de resolver. Categorice su problema en clasificación, regresión, agrupamiento o recomendación, etc. Esta segmentación simple puede ayudarlo a recopilar el conjunto de datos relevante que sea más adecuado para su escenario.
Recolectar Datos – La recopilación de datos puede ser una tarea tediosa. Como sugiere el nombre, es la recopilación de datos históricos para encontrar patrones recurrentes. Se puede clasificar en datos estructurados (archivos de Excel o .csv) y datos no estructurados (fotos, videos, etc.). Algunas de las fuentes famosas para tomar prestado su conjunto de datos son:
Exploración de datos – Este paso implica identificar los problemas y patrones en el conjunto de datos con la ayuda de técnicas estadísticas y de visualización. Debe realizar varias tareas, como detectar los valores atípicos, identificar la distribución de datos y la relación entre las características, buscar valores inconsistentes y faltantes, etc. Microsoft Excel es una herramienta manual popular utilizada para este paso.
Limpieza y validación de datos – Implica eliminar la información irrelevante y abordar los valores faltantes mediante varias herramientas de imputación.. Identifique y elimine los datos redundantes. Muchas opciones de código abierto como AbrirRefinar y Pandera etc. están disponibles para limpiar y validar datos.

2. Ingeniería de funciones

Es otra técnica esencial para mejorar el rendimiento del modelo y acelerar la transformación de datos. La ingeniería de funciones implica infundir nuevas funciones en su modelo a partir de funciones que ya están disponibles. Puede ayudarnos a identificar las características sólidas y eliminar las correlacionadas o redundantes. Sin embargo, requiere experiencia en el dominio y puede no ser factible si nuestra línea de base inicial ya incluye un conjunto diverso de características. Entendámoslo a partir de un ejemplo. Considere que tiene un conjunto de datos que contiene la longitud, el ancho y el precio de la casa de la siguiente manera:

Las 5 mejores prácticas de aprendizaje automático recomendadas por expertos

En lugar de usar el conjunto de datos anterior, podemos introducir otra función llamada "Área" y medir solo el impacto de esa variable en el precio de la casa. Este proceso entra en la categoría de Creación de características.

De manera similar, los Transformación de funciones y Extracción de características puede resultar valioso dependiendo de nuestro dominio de proyecto. La transformación de funciones implica aplicar la función de transformación en una función para una mejor visualización, mientras que en la extracción de funciones comprimimos la cantidad de datos extrayendo solo las funciones relevantes.

A pesar de que, Escala de características también es parte de la ingeniería de características. Lo he discutido por separado para centrarme en su importancia. Feature Scaling es el método utilizado para normalizar el rango de características y variables independientes. ¿Por qué es tan importante este paso? La mayoría de los algoritmos, como las regresiones lineales, la regresión logística y las redes neuronales, utilizan el descenso de gradiente como técnica de optimización. El descenso del gradiente depende en gran medida del rango de características para determinar el tamaño del paso hacia los mínimos, pero la mayoría de nuestros datos varían drásticamente en términos de rangos. Esto nos obliga a normalizar o estandarizar nuestros datos antes de introducirlos en el modelo. Las dos técnicas más importantes en este sentido son:

Normalización – La normalización es la técnica para vincular sus datos típicamente entre rangos [0,1] pero también puede definir su rango [a,b] donde a y b son números reales.

Normalización – La estandarización transforma sus datos para que tengan una media de 0 y una varianza de 1. Primero calculamos la desviación estándar y la media de la característica y luego calculamos el nuevo valor usando esta fórmula:

Ha habido mucho debate para determinar cuál es mejor y algunos hallazgos mostraron que para una distribución gaussiana, la estandarización fue más útil ya que no se vio afectada por la presencia de valores atípicos y viceversa. Pero, depende del tipo de problema en el que esté trabajando. Por lo tanto, es muy recomendable probar ambos y comparar el rendimiento para descubrir qué funciona mejor para usted.

3. Juega con la regularización

Es posible que haya encontrado una situación en la que sus modelos de aprendizaje automático funcionan excepcionalmente bien en sus datos de entrenamiento pero no funcionan bien en los datos de prueba. Esto sucede cuando su modelo es sobreajuste tus datos de entrenamiento. Aunque hay muchos métodos para combatir el sobreajuste, como la eliminación de capas, la reducción de la capacidad de la red, la detención anticipada, etc., pero la regularización supera a todos. ¿Qué es exactamente la Regularización? La regularización es una técnica que evita el sobreajuste reduciendo los coeficientes. Esto da como resultado un modelo simplificado que funciona de manera más eficiente al hacer predicciones. Hay dos tipos de regularización:

Regularización L1 – También se conoce como regresión de lazo. Obliga a algunas de las estimaciones de los coeficientes a convertirse exactamente en cero al agregar una penalización al valor absoluto de la magnitud de los coeficientes. Forma un modelo disperso y es útil para la selección de características.

Regularización L2 – También se conoce como regresión de cresta. Penaliza al modelo sumando el cuadrado del valor absoluto de la magnitud de los coeficientes. Por lo tanto, obliga a los coeficientes a tener un valor cercano a cero pero no exactamente cero. Mejora la interpretabilidad del modelo.

Aunque la regularización de L2 ofrece una predicción más precisa que la de L1, se produce a costa de la potencia de cálculo. Es posible que L2 no sea la mejor opción en caso de valores atípicos, ya que el costo aumenta exponencialmente debido a la presencia de un cuadrado. Por lo tanto, L1 es más robusto en comparación con L2.

4. Identificar los errores

Es muy importante que mantengamos un registro de qué tipo de errores está cometiendo nuestro modelo con fines de optimización. Esta tarea se puede realizar por medio de varios gráficos de visualización dependiendo del tipo de problema a resolver. Algunos de ellos se discuten a continuación:

Clasificación – Los modelos de clasificación son el subconjunto del aprendizaje supervisado que clasifica la entrada en una o más categorías según la salida generada. Los modelos de clasificación se pueden visualizar mediante diversas herramientas como:
Informe de Clasificación – Es una métrica de evaluación que muestra la precisión, la puntuación F1, la recuperación y el soporte. Da una buena comprensión general del rendimiento de su modelo.
Matriz de confusión - Compara los valores reales con los predichos. En comparación con el informe de clasificación, proporciona una visión más profunda de la clasificación de los puntos de datos individuales en lugar de las puntuaciones de nivel superior.
Regresión – Un modelo de regresión predice la relación entre las variables independientes y dependientes proporcionando la función deseada. Realiza las predicciones en espacio continuo y las siguientes son las métricas de evaluación utilizadas para ello:
Parcelas Residuales – Muestra las variables independientes a lo largo del eje horizontal y los residuos en el eje vertical. Si los puntos de datos están dispersos aleatoriamente a lo largo del eje horizontal, entonces un modelo lineal es un ajuste más apropiado y viceversa.
Gráficas de errores de predicción: Muestra el objetivo real frente a los valores predichos para dar una idea de la varianza. Una línea de 45 grados es donde la predicción coincide exactamente con el modelo.

5. Ajuste de hiperparámetros

Los hiperparámetros son un conjunto de parámetros que el propio algoritmo no puede aprender y se establecen antes de que comience el proceso de aprendizaje, por ejemplo, tasa de aprendizaje (alfa), tamaño del mini lote, número de capas, número de unidades ocultas, etc. Ajuste de hiperparámetros se refiere al proceso de selección de los hiperparámetros más óptimos para un algoritmo de aprendizaje que minimiza la función de pérdida. En una red más simple, experimentamos con versiones separadas del modelo y con diferentes combinaciones de los hiperparámetros, pero esta puede no ser la opción adecuada para las redes más complejas. En ese caso, hacemos la selección óptima basándonos en el conocimiento previo. Algunos de los métodos de ajuste de hiperparámetros ampliamente utilizados para hacer una selección adecuada del rango de un espacio de hiperparámetros son los siguientes:

Búsqueda de cuadrícula – Es el método tradicional y más utilizado para el ajuste de hiperparámetros. Implica seleccionar el mejor conjunto de la cuadrícula que contiene todas las combinaciones posibles de hiperparámetros. Sin embargo, necesita más poder computacional y tiempo para realizar su operación.
Búsqueda aleatoria – En lugar de probar todas las combinaciones, selecciona el conjunto de valores de forma aleatoria de la cuadrícula para encontrar los más óptimos. Ahorra energía y tiempo computacional innecesarios en comparación con la búsqueda en cuadrícula. Dado que no se utiliza inteligencia, la suerte juega un papel y produce una gran variación.
Búsqueda bayesiana – Se utiliza en el aprendizaje automático aplicado y supera la búsqueda aleatoria. Hace uso de la Teorema de Bayes y tiene en cuenta el resultado de la iteración anterior para mejorar el resultado de la siguiente. Necesita una función objetivo que minimice la pérdida. Funciona creando un modelo de probabilidad sustituto de la función objetivo, luego encuentra los mejores hiperparámetros para el modelo sustituto, luego se aplica al modelo original y actualiza el modelo sustituto, y estima la función objetivo. Este proceso se repite hasta que encontramos la solución óptima para el modelo original. Se necesita menos iteración, pero se requiere más tiempo para cada iteración.

En los métodos mencionados anteriormente, existe un equilibrio entre el número de iteraciones, el tiempo de ejecución y la maximización del rendimiento. Por lo tanto, el método ideal para su caso depende de sus prioridades.

El aprendizaje automático y el aprendizaje profundo requieren buenos recursos computacionales y experiencia en la materia. La creación de modelos ML es un proceso iterativo que implica la realización de varios consejos para mejorar el rendimiento general del modelo. He enumerado algunas de las mejores prácticas recomendadas por los expertos en ML para acceder a las deficiencias de su modelo actual. Sin embargo, como siempre digo, todo llega con suficiente práctica y paciencia, así que sigue aprendiendo de tus errores.

Kanwal Mehreen es un aspirante a desarrollador de software que cree en el trabajo duro y el compromiso constantes. Es una programadora ambiciosa con un gran interés en el campo de la ciencia de datos y el aprendizaje automático.

Inteligencia de datos generativa

Las 5 mejores prácticas de aprendizaje automático recomendadas por expertos

1. Centrarse en los datos

2. Ingeniería de funciones

3. Juega con la regularización

4. Identificar los errores

5. Ajuste de hiperparámetros

Más sobre este tema

El BMW M2025 CS 4 llega con más potencia y un manejo más preciso – Autoblog

El BMW M2025 CS 4 llega con más potencia y un manejo más preciso – Autoblog

Información más reciente

Rivian informa las ganancias del primer trimestre de 1 a medida que avanza hacia la rentabilidad

Actualización del Kia EV6 provocada por la iluminación 'Star Map' - Autoblog

Lista de observación de prospectos del Draft de la NFL 2025: Receptores amplios

Fisker solicita una 'reorganización' en Austria tras detener la producción

Nintendo of America y Generation Esports están ofreciendo competencias para estudiantes de secundaria y preparatoria en tres juegos diferentes, incluido Super Smash Bros. Ultimate.

NRO amplía asociaciones comerciales