3 razones por las que los científicos de datos deberían usar LightGBM

Introducción

Hay muchas bibliotecas de Python de gran impulso para que los científicos de datos aprovechen los beneficios. Algunos incluyen XGBoost y el nuevo algoritmo CatBoost. Sin embargo, hay un algoritmo que combina algunas de estas otras características del algoritmo, lo que lo convierte en una necesidad para los científicos de datos. Los beneficios son, por supuesto, grandes en el aprendizaje y la educación, pero lo que es más importante, para trabajar en un entorno profesional rápido que requiere un algoritmo que sea rápido. A continuación, hablaré LuzGBM [1] beneficios y cómo son específicos para su trabajo de ciencia de datos.

Codificación categórica

Foto por Mijaíl Vasiliev on Unsplash [ 2 ]

Quizás la mejor característica de esta biblioteca es el soporte de características categóricas. Mientras que muchos científicos de datos pueden usar la codificación one-hot para crear toneladas de nuevas columnas para una sola función categórica, esta biblioteca le permite especificar las funciones categóricas con el parámetro categorical_feature.

Si bien la codificación one-hot es útil, en el mundo académico, dentro de su Jupyter Notebook, por ejemplo, puede ser menos útil en el entorno profesional. Supongamos que tiene 10 características categóricas con 100 contenedores únicos, que se pueden expandir a 1,000 columnas nuevas. Esto no solo hace que su marco de datos sea escaso, sino que también hace que su modelo sea increíblemente más lento. Otro resultado estresante de esta escasez es cuando tiene que traducir sus funciones en código de producción para los ingenieros de software que trabajan en su servicio de predicción e implementación. Esta transferencia de responsabilidades (si tienes esa configuracion claro), puede ser confuso y abrumador para ambas partes.

Estos son algunos de los beneficios de la codificación categórica con LightGBM:

Más fácil de codificar características categóricas
Más fácil de usar
Más fácil de trabajar con otros científicos de datos, ingenieros de software, ingenieros de back-end y gerentes de productos
Puede conservar los nombres de las columnas originales
Puede obtener los beneficios de las características categóricas en lugar de la conversión numérica tradicional con codificación one-hot
En última instancia, estos beneficios pueden hacer que su modelo sea más rápido y preciso

Rápido

Foto por Andy Beales on Unsplash [3].

La codificación de sus características categóricas no solo hace que su modelo sea más rápido, sino que LightGBM también tiene algunos otros trucos para mejorar sus velocidades de entrenamiento y predicción. LigthGBM utiliza GOSS y EFB, o muestreo de un lado basado en degradado y enlace de características exclusivas, así como división basada en histograma.

He aquí por qué un modelo LightGBM rápido es útil para los profesionales:

No todos los trabajos le permitirán semanas o meses para crear un modelo, y algunos incluso pueden querer uno la misma semana, o al menos, un modelo de prueba de concepto.
Este modelado más rápido puede permitirle probar funciones y parámetros más rápido, lo que en última instancia le permite trabajar mejor en un entorno más rápido.
Puede probar más funciones sin ralentizar su modelo tanto como en otros algoritmos

Es simple, es rápido, y cuando tiene muchas personas dependiendo de su modelo, lo rápido le permitirá ayudar al negocio de manera más eficiente.

Preciso

Foto por Silvano Arnet on Unsplash [4].

Todos los XGBoost, CatBoost y LightGBM son modelos precisos. Sí, depende en última instancia de su problema, características y datos, pero en general, estos algoritmos conducen a resultados precisos después de haber realizado los pasos necesarios.

Debido a que puede usar características categóricas, es probable que tenga un modelo preciso, más que un algoritmo que solo puede realizar una codificación one-hot. La forma en que LightGBM se divide también puede conducir a modelos más precisos. Sin embargo, es importante tener en cuenta que querrá evitar el sobreajuste.

Estas son algunas de las razones por las que LightGBM es más preciso y cómo puede ayudarlo profesionalmente:

Método de división
Soporte de características categóricas
Por supuesto, todos quieren un modelo más preciso, especialmente en un negocio (solo tienes que asegurarte de no sobreajustarte)

Resumen

Aunque estos beneficios son simples, son increíblemente importantes y facilitan mucho su trabajo. Como resultado, su empresa, las partes interesadas y los ingenieros, estarán satisfechos con el uso de LightGBM.

Para resumir, estos son algunos de los principales beneficios de usar LightGBM profesionalmente:

Codificación categórica
Rápido
Preciso

Espero que hayas encontrado mi artículo interesante y útil. Siéntase libre de comentar a continuación si está de acuerdo o en desacuerdo con estos beneficios. ¿Por qué o por qué no? ¿Qué otros beneficios crees que es importante señalar en LightGBM? Ciertamente, estos pueden aclararse aún más, pero espero haber podido arrojar algo de luz sobre LightGBM.

Por favor, siéntase libre de echa un vistazo a mi perfil de Medium también.

Referencias

[1] Corporación Microsoft, Documentación de LightGBM(2022)
[2] Foto de Mijaíl Vasiliev on Unsplash(2017)
[3] Foto de Andy Beales on Unsplash(2015)
[4] Foto de Silvano Arnet on Unsplash(2020)

Mateo Przybyla (Mediana) es científico de datos sénior en Favor Delivery con sede en Texas. Tiene una maestría en ciencia de datos de la Universidad Metodista del Sur. Le gusta escribir sobre temas de actualidad y tutoriales en el espacio de la ciencia de datos, que van desde nuevos algoritmos hasta consejos sobre experiencias laborales cotidianas para científicos de datos. A Matt le gusta resaltar el lado comercial de la ciencia de datos en lugar de solo el lado técnico. No dude en comunicarse con Matt en su Etiqueta LinkedIn.

Inteligencia de datos generativa

3 razones por las que los científicos de datos deberían usar LightGBM

Introducción

Codificación categórica

Rápido

Preciso

Resumen

Referencias

Bolsa de Valores de Londres presentará listados de inversiones NFT – CryptoInfoNet

BlackRock, Fidelity y Bitwise Bitcoin ETF obtienen 205 millones de dólares de Pine Ridge Advisers de Nueva York

Información más reciente

Wisconsin se convierte en el primer estado de EE. UU. en realizar una mega inversión en ETF al contado de Bitcoin

Kenson Investments brinda a sus clientes orientación técnica personalizada en el panorama de los criptoactivos

Crypto Old-Head Otoh habla sobre Bitcoins de Casascius, paraísos fiscales y viejos amigos

La industria de las criptomonedas demuestra influencia en las elecciones del Congreso al abogar por un entorno regulatorio favorable – CryptoInfoNet

El indexador de datos Subsquid planea lanzar el token SQD el viernes

La cadena Degen vuelve a estar en línea después de una interrupción de 50 horas – The Defiant