Logotipo de Zephyrnet

Simplifique el análisis de datos y la colaboración con SQL Notebooks en Amazon Redshift Query Editor V2.0

Fecha:

Editor de consultas Amazon Redshift V2.0 es un banco de trabajo de analista basado en la web que puede usar para crear y ejecutar consultas en su Desplazamiento al rojo de Amazon almacén de datos. Puede visualizar los resultados de las consultas con gráficos y explorar, compartir y colaborar en los datos con sus equipos en SQL a través de una interfaz común.

Con SQL Notebooks, Amazon Redshift Query Editor V2.0 simplifica la organización, la documentación y el intercambio de análisis de datos con consultas SQL. La interfaz del cuaderno permite a los usuarios, como analistas de datos, científicos de datos e ingenieros de datos, crear código SQL más fácilmente, organizando múltiples consultas SQL y anotaciones en un solo documento. También puede colaborar con los miembros de su equipo compartiendo cuadernos. Con SQL Notebooks, puede visualizar los resultados de la consulta mediante gráficos. La compatibilidad con SQL Notebooks proporciona una forma alternativa de incorporar todas las consultas necesarias para un análisis de datos completo en un solo documento utilizando celdas SQL. Query Editor V2.0 simplifica el desarrollo de cuadernos de SQL con control de versiones de consultas y funciones de exportación/importación. Puede usar la función de historial de versiones incorporada para realizar un seguimiento de los cambios en su SQL y las celdas de descuento. Con la función de exportación/importación, puede mover fácilmente sus cuadernos de las cuentas de desarrollo a las de producción o compartirlos con miembros del equipo entre regiones y entre cuentas.

En esta publicación, demostramos cómo usar SQL Notebooks usando Query Editor V2.0 y lo guiamos a través de algunas de las nuevas características.

Casos de uso para SQL Notebooks

Los clientes desean usar cuadernos de SQL cuando desean código SQL reutilizable con múltiples declaraciones y anotaciones o documentación de SQL. Por ejemplo:

  • Un analista de datos puede tener varias consultas SQL para analizar datos que crean tablas temporales y ejecuta varias consultas SQL en secuencia para obtener información. También pueden realizar un análisis visual de los resultados.
  • Un científico de datos puede crear un cuaderno que cree algunos datos de entrenamiento, cree un modelo, pruebe el modelo y ejecute predicciones de muestra.
  • Un ingeniero de datos puede tener un script para crear esquemas y tablas, cargar datos de muestra y ejecutar consultas de prueba.

Resumen de la solución

Para esta publicación, usamos el Base de datos global de eventos, idioma y tono (GDELT) conjunto de datos, que monitorea noticias en todo el mundo, y los datos se almacenan para cada segundo de cada día. Esta información está disponible gratuitamente como parte del Registro de datos abiertos en AWS.

Para nuestro caso de uso, un científico de datos quiere realizar un aprendizaje no supervisado con Aprendizaje automático de Amazon Redshift mediante la creación de un modelo de aprendizaje automático (ML) y luego generar información a partir del conjunto de datos, crear múltiples versiones del cuaderno, visualizar usando gráficos y compartir el cuaderno con otros miembros del equipo.

Requisitos previos

Para usar la característica SQL Notebooks, debe agregar una política para SQL Notebooks a un principal: un Gestión de identidades y accesos de AWS (IAM) usuario o rol: que ya tiene una de las políticas administradas de Query Editor V2.0. Para más información, ver Acceso al editor de consultas V2.0.

Importar el cuaderno de muestra

Para importar el cuaderno SQL de ejemplo en Query Editor V2.0, complete los siguientes pasos:

  1. Descarga la muestra cuaderno SQL.
  2. En la consola de Amazon Redshift, elija Editor de consultas V2 en el panel de navegación. Query Editor V2.0 se abre en una nueva pestaña del navegador.
  3. Para conectarse a una base de datos, elija el nombre del clúster o grupo de trabajo.
  4. Si se le solicita, ingrese sus parámetros de conexión. Para obtener más información sobre los diferentes métodos de autenticación, consulte Conexión a una base de datos de Amazon Redshift.
  5. Cuando esté conectado a la base de datos, elija Cuadernos en el panel de navegación.
  6. Elige Importa para usar el cuaderno SQL descargado en el primer paso.
    Una vez que el cuaderno se haya importado correctamente, estará disponible en Mis cuadernos.
  7. Para abrir el cuaderno, haga clic derecho en el cuaderno y elija Cuaderno abiertoo haga doble clic en el bloc de notas.

Realizar análisis de datos

Exploremos cómo puede ejecutar diferentes consultas desde las celdas del cuaderno de SQL para su análisis de datos.

  1. Comencemos creando la tabla.
  2. A continuación, cargamos datos en la tabla usando COPIA dominio. Antes de ejecutar el comando COPY en el cuaderno, debe tener un rol de IAM predeterminado asociado a su clúster de Amazon Redshift o reemplazar la palabra clave predeterminada con el ARN del rol de IAM asociado al clúster de Amazon Redshift:
    COPY gdelt_data FROM 's3://gdelt-open-data/events/1979.csv'
    region 'us-east-1' iam_role 'arn:aws:iam:::role/' csv delimiter 't';

    Para obtener más información, consulte Creación de un rol de IAM como predeterminado en Amazon Redshift.

    Antes de crear el modelo de ML, examinemos los datos de entrenamiento.

  3. Antes de ejecutar la celda para crear el modelo ML, reemplace el con el depósito S3 de su cuenta para almacenar resultados intermedios.
  4. Cree el modelo de aprendizaje automático.
  5. Para verificar el estado del modelo, ejecute la celda del cuaderno Mostrar estado del modelo. El modelo está listo cuando el Estado modelo el valor clave es READY.
  6. Identifiquemos los clusters asociados a cada GlobalEventId.
  7. Obtengamos información sobre los puntos de datos asignados a uno de los clústeres.

En la captura de pantalla anterior, podemos observar los puntos de datos asignados a los clústeres. Vemos grupos de eventos correspondientes a interacciones entre EE. UU. y China (probablemente debido al establecimiento de relaciones diplomáticas), entre EE. UU. y Rusia (probablemente correspondientes al Tratado SALT II) y aquellos que involucran a Irán (probablemente correspondientes a la revolución iraní). ).

Para agregar texto y formatear la apariencia para proporcionar contexto e información adicional para sus tareas de análisis de datos, puede agregar una celda de descuento. Por ejemplo, en nuestro bloc de notas de muestra, proporcionamos una descripción sobre la consulta en las celdas de descuento para que sea más fácil de entender. Para obtener más información sobre las celdas de descuento, consulte Celdas de descuento.

Para ejecutar todas las consultas en el cuaderno SQL a la vez, elija Ejecutar todo.

Agregue nuevas celdas SQL y de descuento

Para agregar nuevas consultas SQL o celdas de descuento, complete los siguientes pasos:

  1. Después de abrir el cuaderno de SQL, coloque el cursor sobre la celda y elija Insertar SQL para agregar una celda SQL o Insertar descuento para agregar una celda de descuento.
  2. La nueva celda se agrega antes de la celda que seleccionó.
  3. También puede mover la nueva celda después de una celda específica eligiendo el ícono hacia arriba o hacia abajo.

Visualice los resultados del cuaderno usando gráficos

Ahora que puede ejecutar la celda del cuaderno SQL y obtener los resultados, puede mostrar una visualización gráfica de los resultados mediante la opción de gráfico en el Editor de consultas V2.0.

Ejecutemos la siguiente consulta para obtener más información sobre los puntos de datos asignados a uno de los resultados del clúster y visualizarlos mediante gráficos.

Para visualizar los resultados de la consulta, configure un gráfico en la Resultados lengüeta. Escoger actor2name para el eje X y totalarticles para el menú desplegable del eje Y. De forma predeterminada, el tipo de gráfico es un gráfico de barras.

Los gráficos se pueden trazar en cada celda y cada celda puede tener varias tablas de resultados, pero solo una de ellas puede tener un gráfico. Para obtener más información sobre cómo trabajar con gráficos en Query Editor V2.0, consulte Visualización de resultados de consultas.

Control de versiones en SQL Notebooks

El control de versiones permite una colaboración más sencilla con sus pares y reduce los riesgos de errores. Puede crear varias versiones del mismo cuaderno de SQL utilizando el Guardar versión opción en Query Editor V2.0.

  1. En el panel de navegación, elija Cuadernos.
  2. Elija el cuaderno SQL que desea abrir.
  3. Elija el menú de opciones (tres puntos) y elija Guardar versión.

    SQL Notebooks crea la nueva versión y muestra un mensaje que indica que la versión se ha creado correctamente.

    Ahora podemos ver el historial de versiones del portátil.
  4. Elija el cuaderno de SQL para el que creó la versión (haga clic con el botón derecho) y elija Historial de versiones.

    Puede ver una lista de todas las versiones del cuaderno SQL.
  5. Para volver a una versión específica del cuaderno, elija la versión que desee y elija Volver a la versión.
  6. Para crear un nuevo cuaderno a partir de una versión, elija la versión que desee y elija Crear un nuevo cuaderno a partir de la versión..

Duplicar el cuaderno de SQL

Mientras trabaja con sus compañeros, es posible que deba compartir su bloc de notas, pero también debe seguir realizando cambios en su bloc de notas. Para evitar cualquier impacto con la versión compartida, puede duplicar el cuaderno y seguir trabajando en sus cambios en la copia duplicada del cuaderno.

  1. En el panel de navegación, elija Cuadernos.
  2. Abra el cuaderno de SQL.
  3. Elija el menú de opciones (tres puntos) y elija Duplicar.
  4. Proporcione el nombre del bloc de notas duplicado.
  5. Elige Duplicar.

Compartir cuadernos

A menudo, necesita colaborar con otros equipos, por ejemplo, para compartir las consultas para las pruebas de integración, implementar las consultas desde el desarrollador a la cuenta de producción, y más. Puede lograr esto compartiendo el cuaderno con su equipo.

Un equipo se define para un conjunto de usuarios que colaboran y comparten recursos de Query Editor V2.0. Un administrador puede crear un equipo agregando una etiqueta a un rol de IAM.

Antes de comenzar a compartir su cuaderno con su equipo, asegúrese de tener la etiqueta principal sqlworkbench-team establezca el mismo valor que el resto de los miembros de su equipo en su cuenta. Por ejemplo, un administrador podría establecer el valor en equipo de contabilidad para todos los miembros del departamento de contabilidad. Para crear un equipo y una etiqueta, consulte Permisos necesarios para utilizar el editor de consultas v2.0.

Para compartir un cuaderno de SQL con un equipo en la misma cuenta, complete los siguientes pasos:

  1. Abra el cuaderno SQL que desea compartir.
  2. Elija el menú de opciones (tres puntos) y elija Compartir con mi equipo.Los cuadernos que se comparten con el equipo se pueden ver en el panel de cuadernos Compartido con mi equipo pestaña, y los cuadernos que son compartidos por el usuario se pueden ver en Compartido por mi pestaña. También puede utilizar la función de exportación/importación para otros casos de uso. Por ejemplo, los desarrolladores pueden implementar portátiles desde entornos inferiores hasta producción, o los clientes pueden proporcionar una solución SAAS para compartir portátiles con sus usuarios finales en diferentes cuentas o regiones. Complete los siguientes pasos para exportar e importar cuadernos SQL:
  3. Abra el cuaderno SQL que desea compartir.
  4. Elija el menú de opciones (tres puntos) y elija Exportar. Cuadernos de SQL guarda el cuaderno en su escritorio local como un archivo .ipynb.
  5. Importe el cuaderno a otra cuenta o región.

Ejecutar consultas parametrizadas en un cuaderno de SQL

Los usuarios de la base de datos a menudo necesitan pasar parámetros a las consultas con diferentes valores en tiempo de ejecución. Puede lograr esto en SQL Notebooks mediante el uso de consultas parametrizadas. Se puede definir en la consulta como ${parameter_name}, y cuando se ejecuta la consulta, solicita establecer un valor para el parámetro.

Veamos el siguiente ejemplo, en el que pasamos el events_cluster parámetro.

  1. Inserte una celda SQL en el cuaderno SQL y agregue la siguiente consulta SQL:
    select news_monitoring_cluster ( AvgTone, EventCode, NumArticles, Actor1Geo_Lat, Actor1Geo_Long, Actor2Geo_Lat, Actor2Geo_Long ) as events_cluster, eventcode, actor1name, actor2name, sum(numarticles) as totalarticles
    from gdelt_data
    where events_cluster = ${events_cluster}
    and actor1name  ' 'and actor2name  ' '
    group by 1,2,3,4
    order by 5 desc

  2. Cuando se le solicite, ingrese el valor del parámetro events_cluster, (para esta publicación, establecemos el valor en 4).
  3. Elige Corre ahora para ejecutar la consulta.

La siguiente captura de pantalla muestra los resultados de la consulta con el events_cluster valor del parámetro establecido en 4.

Conclusión

En esta publicación, presentamos SQL Notebooks con Amazon Redshift Query Editor V2.0. Usamos un cuaderno de muestra para demostrar cómo simplifica las tareas de análisis de datos para un científico de datos y cómo puede colaborar usando cuadernos con su equipo.


Acerca de los autores

Ranjan birmano es un arquitecto de soluciones especialista en análisis en AWS. Se especializa en Amazon Redshift y ayuda a los clientes a crear soluciones analíticas escalables. Tiene más de 15 años de experiencia en diferentes tecnologías de bases de datos y almacenamiento de datos. Le apasiona automatizar y resolver los problemas de los clientes con el uso de soluciones en la nube.

Erol Murtezaoglu, gerente técnico de productos en AWS, es un pensador inquisitivo y entusiasta con un impulso por la superación personal y el aprendizaje. Tiene una formación técnica sólida y comprobada en desarrollo y arquitectura de software, equilibrada con un impulso para ofrecer productos comercialmente exitosos. Erol valora mucho el proceso de comprensión de las necesidades y los problemas de los clientes para ofrecer soluciones que superen las expectativas.

Cansu Aksu es ingeniero frontend en AWS. Tiene varios años de experiencia en la creación de interfaces de usuario que simplifican acciones complejas y contribuyen a una experiencia del cliente perfecta. En su carrera en AWS, ha trabajado en diferentes aspectos del desarrollo de aplicaciones web, incluidos el front-end, el back-end y la seguridad de las aplicaciones.

Andréi Marchenko es un ingeniero de desarrollo de software de pila completa en AWS. Trabaja para dar vida a las notebooks en todos los frentes, desde los requisitos iniciales hasta la implementación del código, desde el diseño de la base de datos hasta la experiencia del usuario final. Utiliza un enfoque holístico para ofrecer la mejor experiencia a los clientes.

Debu-PandaDebu Panda es gerente sénior de administración de productos en AWS. Es un líder de la industria en análisis, plataforma de aplicaciones y tecnologías de bases de datos, y tiene más de 25 años de experiencia en el mundo de TI. Debu ha publicado numerosos artículos sobre análisis, Java empresarial y bases de datos y se ha presentado en múltiples conferencias como re:Invent, Oracle Open World y Java One. Es autor principal de EJB 3 in Action (Manning Publications 2007, 2014) y Middleware Management (Packt, 2009)

punto_img

Información más reciente

punto_img