Logotipo de Zephyrnet

3 razones por las que los científicos de datos deberían usar LightGBM

Fecha:


Introducción

 
Hay muchas bibliotecas de Python de gran impulso para que los científicos de datos aprovechen los beneficios. Algunos incluyen XGBoost y el nuevo algoritmo CatBoost. Sin embargo, hay un algoritmo que combina algunas de estas otras características del algoritmo, lo que lo convierte en una necesidad para los científicos de datos. Los beneficios son, por supuesto, grandes en el aprendizaje y la educación, pero lo que es más importante, para trabajar en un entorno profesional rápido que requiere un algoritmo que sea rápido. A continuación, hablaré LuzGBM [1] beneficios y cómo son específicos para su trabajo de ciencia de datos.

Codificación categórica

 

3 razones para usar LightGBM
Foto por Mijaíl Vasiliev on Unsplash [ 2 ]

 

Quizás la mejor característica de esta biblioteca es el soporte de características categóricas. Mientras que muchos científicos de datos pueden usar la codificación one-hot para crear toneladas de nuevas columnas para una sola función categórica, esta biblioteca le permite especificar las funciones categóricas con el parámetro categorical_feature.

Si bien la codificación one-hot es útil, en el mundo académico, dentro de su Jupyter Notebook, por ejemplo, puede ser menos útil en el entorno profesional. Supongamos que tiene 10 características categóricas con 100 contenedores únicos, que se pueden expandir a 1,000 columnas nuevas. Esto no solo hace que su marco de datos sea escaso, sino que también hace que su modelo sea increíblemente más lento. Otro resultado estresante de esta escasez es cuando tiene que traducir sus funciones en código de producción para los ingenieros de software que trabajan en su servicio de predicción e implementación. Esta transferencia de responsabilidades (si tienes esa configuracion claro), puede ser confuso y abrumador para ambas partes. 

 
Estos son algunos de los beneficios de la codificación categórica con LightGBM:

  • Más fácil de codificar características categóricas
  • Más fácil de usar
  • Más fácil de trabajar con otros científicos de datos, ingenieros de software, ingenieros de back-end y gerentes de productos
  • Puede conservar los nombres de las columnas originales
  • Puede obtener los beneficios de las características categóricas en lugar de la conversión numérica tradicional con codificación one-hot
  • En última instancia, estos beneficios pueden hacer que su modelo sea más rápido y preciso

Rápido

 

3 razones para usar LightGBM
Foto por Andy Beales on Unsplash [3].

 

La codificación de sus características categóricas no solo hace que su modelo sea más rápido, sino que LightGBM también tiene algunos otros trucos para mejorar sus velocidades de entrenamiento y predicción. LigthGBM utiliza GOSS y EFB, o muestreo de un lado basado en degradado y enlace de características exclusivas, así como división basada en histograma. 

 
He aquí por qué un modelo LightGBM rápido es útil para los profesionales:

  • No todos los trabajos le permitirán semanas o meses para crear un modelo, y algunos incluso pueden querer uno la misma semana, o al menos, un modelo de prueba de concepto.
  • Este modelado más rápido puede permitirle probar funciones y parámetros más rápido, lo que en última instancia le permite trabajar mejor en un entorno más rápido.
  • Puede probar más funciones sin ralentizar su modelo tanto como en otros algoritmos

Es simple, es rápido, y cuando tiene muchas personas dependiendo de su modelo, lo rápido le permitirá ayudar al negocio de manera más eficiente. 

Preciso

 

3 razones para usar LightGBM
Foto por Silvano Arnet on Unsplash [4].

 

Todos los XGBoost, CatBoost y LightGBM son modelos precisos. Sí, depende en última instancia de su problema, características y datos, pero en general, estos algoritmos conducen a resultados precisos después de haber realizado los pasos necesarios. 

Debido a que puede usar características categóricas, es probable que tenga un modelo preciso, más que un algoritmo que solo puede realizar una codificación one-hot. La forma en que LightGBM se divide también puede conducir a modelos más precisos. Sin embargo, es importante tener en cuenta que querrá evitar el sobreajuste. 

 
Estas son algunas de las razones por las que LightGBM es más preciso y cómo puede ayudarlo profesionalmente:

  • Método de división
  • Soporte de características categóricas
  • Por supuesto, todos quieren un modelo más preciso, especialmente en un negocio (solo tienes que asegurarte de no sobreajustarte)

Resumen

 
Aunque estos beneficios son simples, son increíblemente importantes y facilitan mucho su trabajo. Como resultado, su empresa, las partes interesadas y los ingenieros, estarán satisfechos con el uso de LightGBM.

Para resumir, estos son algunos de los principales beneficios de usar LightGBM profesionalmente:

  • Codificación categórica
  • Rápido
  • Preciso

Espero que hayas encontrado mi artículo interesante y útil. Siéntase libre de comentar a continuación si está de acuerdo o en desacuerdo con estos beneficios. ¿Por qué o por qué no? ¿Qué otros beneficios crees que es importante señalar en LightGBM? Ciertamente, estos pueden aclararse aún más, pero espero haber podido arrojar algo de luz sobre LightGBM.

Por favor, siéntase libre de echa un vistazo a mi perfil de Medium también.

Referencias

 
[1] Corporación Microsoft, Documentación de LightGBM(2022)
[2] Foto de Mijaíl Vasiliev on Unsplash(2017)
[3] Foto de Andy Beales on Unsplash(2015)
[4] Foto de Silvano Arnet on Unsplash(2020)

 
 
Mateo Przybyla (Mediana) es científico de datos sénior en Favor Delivery con sede en Texas. Tiene una maestría en ciencia de datos de la Universidad Metodista del Sur. Le gusta escribir sobre temas de actualidad y tutoriales en el espacio de la ciencia de datos, que van desde nuevos algoritmos hasta consejos sobre experiencias laborales cotidianas para científicos de datos. A Matt le gusta resaltar el lado comercial de la ciencia de datos en lugar de solo el lado técnico. No dude en comunicarse con Matt en su Etiqueta LinkedIn.

punto_img

Información más reciente

punto_img