Explore casos de uso del mundo real para Amazon CodeWhisperer con tecnología de portátiles AWS Glue Studio | Servicios web de Amazon

Muchos clientes están interesados en aumentar la productividad en su ciclo de vida de desarrollo de software mediante el uso de IA generativa. Recientemente, AWS anunció la disponibilidad general de Amazon CodeWhisperer, un complemento de codificación de IA que utiliza modelos fundamentales para mejorar la productividad de los desarrolladores de software. Con Código de Amazon Whisperer, puede aceptar rápidamente la sugerencia principal, ver más sugerencias o continuar escribiendo su propio código. Esta integración reduce el tiempo total dedicado a escribir la integración de datos y la lógica de extracción, transformación y carga (ETL). También ayuda a los programadores principiantes a escribir sus primeras líneas de código. Cuadernos de AWS Glue Studio le permite crear trabajos de integración de datos con una interfaz de portátil sin servidor basada en web.

En esta publicación, analizamos casos de uso del mundo real para CodeWhisperer con tecnología de portátiles AWS Glue Studio.

Resumen de la solución

Para esta publicación, utiliza el CSV. Conjunto de datos de ganancias de deportes electrónicos, disponible para descargar a través de Kaggle. Los datos son extraídos de eSportsEarnings.com, que proporciona información sobre las ganancias de los jugadores y equipos de eSports. El objetivo es realizar transformaciones utilizando un cuaderno de AWS Glue Studio con recomendaciones de CodeWhisperer y luego volver a escribir los datos en Servicio de almacenamiento simple de Amazon (Amazon S3) en formato de archivo Parquet, así como a Desplazamiento al rojo de Amazon.

Requisitos previos

Nuestra solución tiene los siguientes requisitos previos:

Configurar AWS Glue Studio.
Configurar un Gestión de identidades y accesos de AWS (IAM) para interactuar con CodeWhisperer. Adjunte la siguiente política a su función de IAM adjunta al cuaderno de AWS Glue Studio:
```
{ "Version": "2012-10-17", "Statement": [{ "Sid": "CodeWhispererPermissions", "Effect": "Allow", "Action": [ "codewhisperer:GenerateRecommendations" ], "Resource": "*" }]
}
```
Descargar el CSV Conjunto de datos de ganancias de deportes electrónicos y sube el archivo CSV highest_earning_players.csv a la carpeta S3 que utilizará en este caso de uso.

Cree un cuaderno de AWS Glue Studio

Empecemos. Cree un nuevo trabajo de cuaderno de AWS Glue Studio completando los siguientes pasos:

En la consola de AWS Glue, elija Cuadernos bajo Empleos de ETL en el panel de navegación.
Seleccione Cuaderno Jupyter y elige Crear.
Nombre del trabajo, introduzca CodeWhisperer-s3toJDBC.

Se creará un nuevo cuaderno con las celdas de muestra como se muestra en la siguiente captura de pantalla.

Usamos la segunda celda por ahora, para que puedas eliminar todas las demás celdas.

En la segunda celda, actualice la configuración de la sesión interactiva configurando lo siguiente:
1. Tipo de trabajador a G.1X
2. Número de trabajadores a 3
3. Versión de AWS Glue a 4.0

Además, importar el DynamicFrame módulo y current_timestamp funciona de la siguiente manera:

from pyspark.sql.functions import current_timestamp
from awsglue.dynamicframe import DynamicFrame

Después de realizar estos cambios, la computadora portátil debería verse como la siguiente captura de pantalla.

Ahora, asegurémonos de que CodeWhisperer esté funcionando según lo previsto. En la parte inferior derecha encontrarás el código susurrador opción al lado del Pegamento PySpark estado, como se muestra en la siguiente captura de pantalla.

Tu puedes elegir código susurrador para ver las opciones a utilizar Sugerencias automáticas.

Desarrolle su código utilizando CodeWhisperer en un cuaderno de AWS Glue Studio

En esta sección, mostramos cómo desarrollar un trabajo de cuaderno de AWS Glue para Amazon S3 como fuente de datos y fuentes de datos JDBC como destino. Para nuestro caso de uso, debemos asegurarnos de que las sugerencias automáticas estén habilitadas. Escriba su recomendación usando CodeWhisperer siguiendo los siguientes pasos:

Escribe un comentario en lenguaje natural (en inglés) para leer archivos Parquet desde tu depósito S3:
```
# Read CSV files from S3
```

Después de ingresar el comentario anterior y presionar Participar, el botón CodeWhisperer al final de la página mostrará que se está ejecutando para escribir la recomendación. El resultado de la recomendación de CodeWhisperer aparecerá en la siguiente línea y el código se elige después de presionar Tab audio. Puedes aprender más en Acciones del usuario.

Después de ingresar el comentario anterior, CodeWhisperer generará un fragmento de código similar al siguiente:

df = (spark.read.format("csv") .option("header", "true") .option("inferSchema", "true") .load("s3://<bucket>/<path>/highest_earning_players.csv"))

Tenga en cuenta que debe actualizar las rutas para que coincidan con el depósito de S3 que está utilizando en lugar del depósito generado por CodeWhisperer.

Del fragmento de código anterior, CodeWhisperer usó Spark DataFrames para leer los archivos CSV.

Ahora puedes intentar reformular algunas palabras para obtener una sugerencia con las funciones de DynamicFrame:

# Read CSV file from S3 with the header format option using DynamicFrame"

Ahora CodeWhisperer generará un fragmento de código similar al siguiente:

dyF = glueContext.create_dynamic_frame.from_options( connection_type="s3", connection_options={ "paths": ["s3://<bucket>/<path>/highest_earning_players.csv"], "recurse": True, }, format="csv", format_options={ "withHeader": True, }, transformation_ctx="dyF")

Reformular las oraciones escritas ahora ha demostrado que después de algunas modificaciones en los comentarios que escribimos, obtuvimos la recomendación correcta de CodeWhisperer.

A continuación, utilice CodeWhisperer para imprimir el esquema del marco dinámico de AWS Glue anterior mediante el siguiente comentario:
```
# Print the schema of the above DynamicFrame
```

CodeWhisperer generará un fragmento de código similar al siguiente:

dyF.printSchema()

Obtenemos el siguiente resultado.

Ahora usamos CodeWhisperer para crear algunas funciones de transformación que pueden manipular el marco dinámico de AWS Glue leído anteriormente. Comenzamos ingresando código en una nueva celda.

Primero, pruebe si CodeWhisperer puede utilizar las funciones de contexto correctas de AWS Glue como ResolverElección:
```
# Convert the "PlayerId" type from string to integer
```

CodeWhisperer ha recomendado un fragmento de código similar al siguiente:

dyF = dyF.resolveChoice(specs=[('PlayerId', 'cast:long')])
dyF.printSchema()

El fragmento de código anterior no representa con precisión el comentario que ingresamos.

Puede aplicar la paráfrasis y simplificación de oraciones proporcionando los siguientes tres comentarios. Cada uno tiene una petición diferente y nosotros usamos el con columna Método Spark Frame, que se utiliza en tipos de columnas de fundición:
```
# Convert the DynamicFrame to spark data frame
# Cast the 'PlayerId' column from string to Integer using WithColumn function # Convert the spark frame back to DynamicFrame and print the schema
```

CodeWhisperer seleccionará los comandos anteriores y recomendará el siguiente fragmento de código en secuencia:

df = dyF.toDF()
df = df.withColumn("PlayerId", df["PlayerId"].cast("integer"))
dyF = DynamicFrame.fromDF(df, glueContext, "dyF")
dyF.printSchema()

El siguiente resultado confirma la PlayerId La columna se cambia de cadena a número entero.