Logotipo de Zephyrnet

¿Estamos infravalorando los modelos simples? – KDnuggets

Fecha:

¿Estamos infravalorando los modelos simples?
Imagen generada por DALL-E 2
 

La tendencia actual en el mundo del aprendizaje automático tiene que ver con modelos avanzados. El movimiento impulsado principalmente por el modelo de referencia de muchos cursos es el modelo complejo, y parece mucho más increíble utilizar un modelo como el aprendizaje profundo o los LLM. Los empresarios tampoco ayudaron con esta idea, ya que sólo vieron la tendencia popular.

La simplicidad no significa resultados decepcionantes. Un modelo simple sólo significa que los pasos que utiliza para entregar la solución son menos complicados que el modelo avanzado. Puede que utilice menos parámetros o métodos de optimización más simples, pero un modelo simple sigue siendo válido. 

Refiriéndose al principio de la filosofía, La navaja de Occam o Ley de Parsimonia establece que la explicación más simple suele ser la mejor. Implica que la mayoría de los problemas generalmente pueden resolverse mediante el enfoque más sencillo. Es por eso que el valor del modelo simple es, por naturaleza, simple para resolver el problema.

Un modelo simple es tan importante como cualquier tipo de modelo. Ése es el mensaje crucial que el artículo quiere transmitir y exploraremos por qué. Entonces, entremos en ello.

Cuando hablamos de modelos simples, ¿qué constituye un modelo simple? La regresión logística o el ingenuo Bayes a menudo se denomina modelo simple, mientras que las redes neuronales son complejas; ¿Qué tal un bosque aleatorio? ¿Es un modelo simple o complejo?

Generalmente, no clasificamos a Random Forest como un modelo simple, pero a menudo dudamos en clasificarlo como complejo. Esto se debe a que no existen reglas estrictas que gobiernen la clasificación de niveles simple del modelo. Sin embargo, hay algunos aspectos que podrían ayudar a clasificar el modelo. Ellos son:

– Número de parámetros,

– Interpretabilidad,

– Eficiencia computacional.

Estos aspectos también afectan al modelo de ventajas. Analicémoslos con más detalle.

Número de parámetros

El parámetro es una configuración inherente del modelo que se aprende o estima durante el proceso de capacitación. A diferencia del concepto de hiperparámetro, el usuario no puede establecer el parámetro inicialmente, pero se ve afectado por las opciones del hiperparámetro.

Ejemplos de parámetros incluyen el coeficiente de regresión lineal, el peso y los sesgos de la red neuronal y el centroide del grupo de K-medias. Como puede ver, los valores de los parámetros del modelo cambian de forma independiente a medida que aprendemos de los datos. El valor del parámetro se actualiza constantemente en la iteración del modelo hasta que esté presente el modelo final.

La regresión lineal es un modelo simple porque tiene pocos parámetros. Los parámetros de la regresión lineal son sus coeficientes y su intersección. Dependiendo de la cantidad de funciones que entrenemos, la regresión lineal tendría n + 1 parámetros (n es el número de coeficientes de características más 1 para la intersección).

En comparación con la red neuronal, el modelo es más complejo de calcular. El parámetro en NN consta de ponderaciones y sesgos. El peso dependería de la entrada de la capa (n) y las neuronas (p), y el número del parámetro de peso sería n*p. Cada neurona tendría su sesgo, por lo que para cada p, habría un p inclinación. En total, los parámetros estarían alrededor (n*p) + p número. Luego, la complejidad aumenta con cada adición de capas, donde cada capa adicional aumentaría (n*p) + p parámetros.

Hemos visto que la cantidad de parámetros afecta la complejidad del modelo, pero ¿cómo afecta el rendimiento general de la salida del modelo? El concepto más crucial es que afecta los riesgos de sobreajuste. 

El sobreajuste ocurre cuando nuestro algoritmo modelo tiene poco poder de generalización porque está aprendiendo los ruidos en un conjunto de datos. Con más parámetros, el modelo podría capturar patrones más complejos en los datos, pero también incluye los ruidos, ya que el modelo supone que son significativos. Por el contrario, un modelo de parámetros más pequeño tiene una capacidad limitada, lo que significa que es más difícil sobreajustarlo.

También hay efectos directos sobre la interpretabilidad y la eficiencia computacional, que discutiremos más adelante.

Interpretabilidad

La interpretabilidad es un concepto de aprendizaje automático que se refiere a la capacidad del aprendizaje automático para explicar el resultado. Básicamente, así es como el usuario puede entender el resultado del comportamiento del modelo. El valor significativo del modelo simple reside en su interpretabilidad, y es un efecto directo proveniente de un número menor de parámetros. 

Con menos parámetros, la interpretabilidad del modelo simple aumenta a medida que el modelo es más fácil de explicar. Además, el funcionamiento interno del modelo es más transparente ya que es más fácil comprender el papel de cada parámetro que el complejo. 

Por ejemplo, el coeficiente de regresión lineal es más sencillo de explicar ya que el parámetro del coeficiente influye directamente en la característica. Por el contrario, un modelo complejo como NN es un desafío para explicar la contribución directa del parámetro al resultado de la predicción. 

El valor de la interpretabilidad es enorme en muchas líneas de negocios o proyectos, ya que un negocio en particular requiere que se pueda explicar el resultado. Por ejemplo, la predicción en el campo médico requiere explicabilidad, ya que el experto médico debe tener confianza en el resultado; después de todo, está afectando la vida individual.

Evitar sesgos en la decisión del modelo es también la razón por la que muchos prefieren utilizar un modelo simple. Imagine que una empresa de préstamos entrena un modelo con un conjunto de datos lleno de sesgos y el resultado refleja estos sesgos. Queremos eliminar los sesgos porque no son éticos, por lo que la explicabilidad es vital para detectarlos.

Eficiencia computacional

Otro efecto directo de menos parámetros es un aumento en la eficiencia computacional. Un número menor de parámetros significa menos tiempo para encontrar los parámetros y menos potencia computacional. 

En producción, un modelo con mayor eficiencia computacional sería más accesible de implementar y tendría un tiempo de inferencia más corto en la aplicación. El efecto también llevaría a que modelos simples se implementaran más fácilmente en dispositivos con recursos limitados, como los teléfonos inteligentes.

En general, un modelo simple utilizaría menos recursos, lo que se traduciría en menos dinero gastado en el procesamiento y la implementación.

Podríamos subestimar un modelo simple porque no parece sofisticado o no proporciona el resultado de métricas más óptimo. Sin embargo, hay muchos valores que podemos tomar del modelo Simple. Al observar el aspecto que clasifica la simplicidad del modelo, el modelo Simple aporta estos valores:

– Los modelos simples tienen un número menor de parámetros, pero también disminuyen el riesgo de sobreajuste.

– Con menos parámetros, el modelo Simple proporciona un mayor valor de explicabilidad,

– Además, menos parámetros significan que el modelo simple es computacionalmente eficiente.
 
 

Cornelio Yudha Wijaya es subgerente de ciencia de datos y escritor de datos. Mientras trabaja a tiempo completo en Allianz Indonesia, le encanta compartir consejos sobre Python y datos a través de las redes sociales y los medios de escritura.

punto_img

Información más reciente

punto_img

vidacienciav

café vc

café vc

vidacienciav