Logotipo de Zephyrnet

¿Cómo usar ChatGPT como científico de datos?

Fecha:

Introducción

¿Eres un científico de datos que busca una lectura emocionante e informativa? ¡No busques más, porque tengo un regalo para ti! Mi última publicación de blog está repleta de experimentos divertidos e innovadores que realicé con ChatGPT durante el fin de semana. En este experimento, puse ChatGPT a la prueba y lo desafió a generar la solución a un problema de ciencia de datos automáticamente. No querrá perderse los increíbles resultados que logramos juntos. Únase a mí mientras nos sumergimos en el meollo de la cuestión de cómo creamos las indicaciones para lograr el resultado deseado y vea por sí mismo cuán precisas fueron las soluciones. Confía en mí, ¡esta es una publicación de blog que no querrás perderte! Ven, averigüemos cómo usar las indicaciones de ChatGPT como científico de datos.

¡Desde el código hasta su finalización, ChatGPT hace que los proyectos de ciencia de datos sean muy sencillos!

Descripción general de los experimentos

Realizaré 2 experimentos diferentes. En el primer experimento, quiero ver si ChatGPT puede ayudarme con el código para construir el modelo de aprendizaje automático en un conjunto de datos específico. También evaluaremos el código en el cuaderno jupyter para ver si es exacto o no. Y en el segundo experimento, tomaremos los aprendizajes del experimento 1 y rediseñaremos las indicaciones para los resultados deseados. En términos generales, evaluaremos los siguientes puntos:

  1. ¿Puede ChatGPT crear contenido de IA impecable y libre de spam?
  2. ¿Quiere automatizar su codificación con la generación de código específico del conjunto de datos de ChatGPT?
  3. Comprenda cómo dominar el arte de ChatGPT y los consejos para lograr los resultados deseados con indicaciones precisas.

Experimento 1: ¡ChatGPT para la ciencia de datos!

Vamos a empezar el primer experimento ahora.

Consideraré el conjunto de datos de ventas del Black Friday. Puede descargar el conjunto de datos de ChatGPT. El conjunto de datos contiene las transacciones de los clientes de una tienda minorista que contiene datos demográficos de los clientes, detalles del producto y el monto total de la compra. La empresa quiere comprender el comportamiento de compra del cliente para la personalización. Entonces, la pregunta es construir un modelo de aprendizaje automático para predecir el monto de la compra en función de la demografía del cliente y los productos comprados anteriormente.

En el primer mensaje, le diré a ChatGPT sobre el conjunto de datos y de qué se trata.

Mensaje 1

Se le proporciona el conjunto de datos de la tienda minorista que contiene las transacciones de los clientes. Cada fila contiene datos demográficos del cliente, detalles del producto y el monto total de la compra del mes pasado. El conjunto de datos de muestra se proporciona a continuación.

ChatGPT para ciencia de datos 1

Ahora, ChatGPT responde solicitando el conjunto de datos. En el siguiente aviso, proporcionaré el conjunto de datos de muestra del conjunto de datos de ventas del Black Friday.

Nota: No puede cargar los conjuntos de datos directamente en ChatGPT ni copiar y pegar el conjunto de datos completo.

Entonces, copiaremos y pegaremos alrededor de 100-150 filas del conjunto de datos.

Mensaje 2

ID_de_usuario,ID_del_producto, Sexo, Edad, Ocupación, Categoría_de_la_ciudad, Estancia_en_los_años_de_la_ciudad_actuales, Estado_civil, Categoría_del_producto_1, Categoría_del_producto_2, Categoría_del_producto_3, Compra
1005915,P00372445,M,18-25,4,C,0,0,20,,,371
1005916,P00370853,M,51-55,20,B,1,1,19,,,24
1005918,P00370853,M,26-35,12,A,3,1,19,,,12
1005919,P00370853,M,18-25,0,C,0,0,19,,,48
1005920,P00375436,F,26-35,1,C,2,0,20,,,244
1005922,P00370853,M,55+,3,C,3,0,19,,,12
1005923,P00371644,M,26-35,7,C,1,1,20,,,129
1005924,P00370293,M,36-45,0,B,0,1,19,,,49
1005925,P00371644,F,26-35,0,C,1,1,20,,,592
1005927,P00372445,M,36-45,14,B,4+,1,20,,,358
1005929,P00370853,F,36-45,0,C,2,0,19,,,50
1005931,P00372445,F,18-25,7,A,3,0,20,,,129
1005932,P00371644,M,18-25,14,C,3,0,20,,,131
1005933,P00375436,M,26-35,2,C,3,1,20,,,364

ChatGPT para ciencia de datos 2

ChatGPT para ciencia de datos

Ahora, pidamos a ChatGPT que escriba un código para construir un modelo para predecir la variable objetivo "Comprar".

Mensaje 3

Quiero que actúes como científico de datos y escribas código para mí. Cree un modelo de aprendizaje automático para predecir la variable de compra a partir del conjunto de datos anterior.

ChatGPT para ciencia de datos

ChatGPT para ciencia de datos

Como puede ver, ChatGPT nos proporcionó el código para construir el modelo de aprendizaje automático. Ejecutaremos el código en el cuaderno jupyter y veremos si funciona o no.

El código anterior arroja el error.

ChatGPT se saltó un par de pasos de preprocesamiento de datos:

  • Hay variables categóricas en el conjunto de datos. ChatGPT no incluyó el código para manejarlo.
  • ChatGPT no pudo manejar los valores faltantes presentes en el conjunto de datos.
  • ChatGPT no eliminó las columnas innecesarias como ID de usuario e ID de producto.

Ahora, en el siguiente aviso, permítanme pedirle a ChatGPT que actualice los pasos de preprocesamiento de datos en el código sin mencionar explícitamente el tipo de pasos a realizar. Averigüemos si puede hacerlo.

Mensaje 4

El código anterior está incompleto. Actualice el código anterior con los pasos de preprocesamiento de datos necesarios según el conjunto de datos proporcionado.

ChatGPT para ciencia de datos 7

El código anterior arroja el error.

Como era de esperar, incluía el código para la imputación de valores perdidos y el manejo de variables categóricas. Pero se perdió la codificación de la identificación del producto y las columnas de identificación del usuario.

Preguntemos sobre ChatGPT para codificar las columnas de ID de producto e ID de usuario en el siguiente aviso.

Mensaje 5

El código anterior da un error. Te perdiste la codificación de las columnas de ID de usuario e ID de producto.

ChatGPT para ciencia de datos

El código anterior arroja el error. Codificó la identificación del producto y la identificación del usuario en nuevas columnas, pero no eliminó las columnas reales. Como puede ver, este es el contenido defectuoso generado por ChatGPT.

Pidamos a ChatGPT que revise el código.

Mensaje 6

Está usted equivocado. El código anterior todavía arroja un error.

ChatGPT responde buscando un error. Copiemos y peguemos el error al ejecutar el código. Este será nuestro próximo aviso.

Mensaje 7

ValueError: no se pudo convertir la cadena en flotante: 'P00233842'.

ChatGPT para ciencia de datos

¿Hay algo mal con el código? Ahora puede ver que ChatGPT no codificó el resto de las columnas categóricas. Este es un contenido defectuoso y defectuoso. Se espera que incluya el resto de las columnas categóricas ya que codificó el resto de las columnas categóricas anteriormente. Mientras arreglaba la codificación de la identificación del producto y la identificación del usuario, se perdió en las otras columnas.

Ahora, indaguemos sobre ChatGPT para codificar el resto de las variables categóricas.

Mensaje 8

Te perdiste codificar el resto de las columnas categóricas. Actualice el código.

columnas categóricas

ChatGPT para ciencia de datos

Esta vez, me proporcionó todos los pasos de preprocesamiento de datos necesarios. Vamos a ejecutarlo en el cuaderno. Todavía arroja el error. Pidámosle a ChatGPT que lo arregle. Espero que este sea nuestro último aviso.

Mensaje 9

Actualice el código. El código arroja TypeError: los nombres de funciones solo se admiten si todas las funciones de entrada tienen nombres de cadena, pero su entrada tiene ['int', 'str'] como tipos de nombre de columna/nombre de función

ChatGPT para ciencia de datos

Finalmente, logramos un código libre de errores.

Experimento 2: Indicadores de ciencia de datos para ChatGPT

Un par de aprendizajes del primer experimento son que

  • Proporcione siempre indicaciones detalladas para lograr los resultados deseados.
  • Dígale al ChatGPT que corrija el código si es incorrecto. Puede arreglar su propio código.

Ahora, comenzaremos el experimento 2 con nuestros aprendizajes.

Mensaje 1

Se le proporciona el conjunto de datos de la tienda minorista que contiene las transacciones de los clientes. Cada fila contiene datos demográficos del cliente, detalles del producto y el monto total de la compra del mes pasado. El conjunto de datos de muestra se proporciona a continuación.

ChatGPT para ciencia de datos 1

Mensaje 2

ID_de_usuario,ID_del_producto, Sexo, Edad, Ocupación, Categoría_de_la_ciudad, Estancia_en_los_años_de_la_ciudad_actuales, Estado_civil, Categoría_del_producto_1, Categoría_del_producto_2, Categoría_del_producto_3, Compra
1005915,P00372445,M,18-25,4,C,0,0,20,,,371
1005916,P00370853,M,51-55,20,B,1,1,19,,,24
1005918,P00370853,M,26-35,12,A,3,1,19,,,12
1005919,P00370853,M,18-25,0,C,0,0,19,,,48
1005920,P00375436,F,26-35,1,C,2,0,20,,,244
1005922,P00370853,M,55+,3,C,3,0,19,,,12
1005923,P00371644,M,26-35,7,C,1,1,20,,,129
1005924,P00370293,M,36-45,0,B,0,1,19,,,49
1005925,P00371644,F,26-35,0,C,1,1,20,,,592
1005927,P00372445,M,36-45,14,B,4+,1,20,,,358
1005929,P00370853,F,36-45,0,C,2,0,19,,,50
1005931,P00372445,F,18-25,7,A,3,0,20,,,129
1005932,P00371644,M,18-25,14,C,3,0,20,,,131
1005933,P00375436,M,26-35,2,C,3,1,20,,,364

ChatGPT para ciencia de datos 2

ChatGPT para ciencia de datos

Mensaje 3

Quiero que actúes como científico de datos y escribas código para mí. Cree un modelo de aprendizaje automático para predecir la variable de compra a partir del conjunto de datos anterior. Incluya pasos de preprocesamiento de datos como descartar columnas de ID innecesarias, codificar variables categóricas, manejar valores faltantes, etc.

ChatGPT para ciencia de datos

Mensaje 4

Actualice el código que incluye la evaluación del modelo.

ChatGPT para ciencia de datos

¡Otro contenido inapropiado y con fallas de ChatGPT! Generó el código para el problema de clasificación del conjunto de datos de regresión.

Mensaje 5

El código anterior es incorrecto. El conjunto de datos dado es un problema de regresión.

ChatGPT para ciencia de datos

ChatGPT para ciencia de datos

Mensaje 6

Actualice el código que incluye la ingeniería de funciones. Mantenga el resto de los pasos iguales.

ChatGPT para ciencia de datos

ChatGPT para ciencia de datos

Mensaje 7

Escriba un código para ajustar los hiperparámetros del bosque aleatorio. Utilice la técnica de hiperajuste más inteligente para lograr los mejores resultados en menos tiempo.

ChatGPT para ciencia de datos

ChatGPT para ciencia de datos

Mensaje 8

Escriba un código para visualizar las características más importantes.

visualizar características importantes

Mensaje 9

Me gustaría explicar los resultados del modelo. Escriba un código para interpretar los resultados del modelo.

ideas

Mensaje 10

Escriba un código para interpretar los resultados del modelo usando cal.

ideas

¡Increíble! Ya no se requiere programación. La codificación ahora es mucho más fácil con ChatGPT.

Conclusión

En este artículo, hemos visto cómo hacer uso de ChatGPT para Data Science. Puede automatizar toda su codificación con ChatGPT específico para el conjunto de datos. Pero a veces, ChatGPT puede proporcionar contenido de IA defectuoso y defectuoso. Esos son los momentos en los que necesita decirle explícitamente a ChatGPT que corrija y regenere el contenido nuevamente. Puede corregir sus propios errores y aprender de ellos.

Finalmente, entendimos la importancia de las indicaciones correctas para obtener los resultados deseados de ChatGPT para los científicos de datos. También hemos visto algunas de las principales indicaciones útiles de Data Science.

Eso es todo por hoy. Nos vemos en el próximo blog.

punto_img

Información más reciente

punto_img