Logotipo de Zephyrnet

7 conceptos de SQL que debe conocer para la ciencia de datos

Fecha:

7 conceptos de SQL que debe conocer para la ciencia de datos
Imagen por editor

A medida que el mundo avanza hacia la digitalización, la mayoría de las empresas ahora se basan en datos. La gran cantidad de datos que recopilan se almacena en una base de datos. La gestión, análisis y procesamiento de estos datos se realiza a través de un SGBD (Sistema de Gestión de Bases de Datos). Como consecuencia de este cambio, la ciencia de datos se presentó como uno de los campos más emergentes con innumerables oportunidades laborales. Un científico de datos necesita extraer los datos de la base de datos y aquí es donde entra en juego SQL. Debe haber oído hablar de las mejores habilidades en ciencia de datos para dominar este campo y SQL es una de ellas. Ahora, la pregunta es: ¿Realmente necesito dominar SQL como un buen científico de datos?

La respuesta es NO, pero se requieren conocimientos básicos de SQL, ya que se ha convertido en un estándar para muchos sistemas de bases de datos. Este artículo pretende mencionar todos los elementos clave de SQL que debe conocer y que recomiendan los profesionales de la ciencia de datos.

SQL significa Lenguaje de consulta estructurado y tiene como objetivo administrar la base de datos relacional. Primero comprendamos la necesidad de SQL en la ciencia de datos. ¿Qué lo hace único y una de las habilidades más buscadas en la ciencia de datos? A continuación se presentan algunos de los puntos para ayudarlo a comprender su importancia:

  • Uso amplio: Aunque tiene aproximadamente 40 años, se utiliza para consultas en la mayoría de los sistemas de bases de datos relacionales y se ha convertido en la herramienta estándar para experimentar con datos.
  • Simplifica la comprensión de los datos: SQL es muy útil para navegar por el contenido de la base de datos. Te hace entender las peculiaridades de una manera efectiva. 
  • Fácil de aprender: Es el punto de partida perfecto para los novatos con una sintaxis simple similar al inglés y puede extraer información valiosa con solo unas pocas líneas de código.
  • Permite el procesamiento de grandes masas de datos: SQL le permite administrar una gran cantidad de datos de manera organizada, lo que lo convierte en una opción ideal para aplicaciones de ciencia de datos.
  • Compatibilidad con otros lenguajes de programación y aplicaciones: La integración de SQL con lenguajes como Python, C++, R, etc. es muy conveniente. También es compatible con herramientas de inteligencia comercial y visualización de datos como Power BI y Tableau, lo que facilita un poco el proceso de desarrollo. 

1) Comprensión de los comandos básicos

El conocimiento de los comandos básicos construye la base para el aprendizaje permanente. De lo contrario, solo estarás memorizando los hechos sin entender cómo encajan. Algunos de los comandos SQL más utilizados son los siguientes:

  • SELECCIONAR DE: para recuperar los atributos de los datos de la tabla mencionada.
  • SELECCIONAR DISTINTO: elimina las filas duplicadas y muestra solo los registros únicos.
  • ¿Dónde?: filtra el registro y muestra solo los que cumplen la condición dada.
  • Y, O, NO: no ejecutar la consulta cuando la condición no es verdadera. Mientras, AND y OR se utilizan para aplicar múltiples condiciones.
  • ORDEN POR: ordena los datos en orden ascendente o descendente
  • AGRUPAR POR: agrupa datos idénticos.
  • TENER: los datos agregados por Agrupar por se pueden filtrar aún más aquí.
  • Funciones agregadas: funciones agregadas como COUNT(), MAX(), MIN(), AVG() y SUM() se utilizan para realizar operaciones en los datos proporcionados.

Tomemos un ejemplo para aplicarlos a una tabla de empleados,

ID Nombre Departamento Salario ($)  Género
1 Julia Administración 20000 F
2 Jazmín Administración 15000 F
3 Juan IT 20000 M
4 Marc Administración 17000 M

Ahora, queremos obtener el salario promedio de las mujeres que trabajan en el Departamento de Administración.

SELECT Department, AVG(Salary)
FROM Employees
WHERE Gender="F"
GROUP BY Department
HAVING Department = "Admin";

 

Salida:

Admin | 17500.0

2) Caso Cuando 

Es una declaración realmente poderosa y flexible en SQL que se usa para escribir declaraciones condicionales complejas. Ofrece la funcionalidad de las sentencias IF.THEN.ELSE. Echemos un vistazo a su sintaxis,

CASE expression WHEN value_1 THEN result_1 WHEN value_2 THEN result_2 ... WHEN value_n THEN result_n ELSE result END

 

Ejecuta las declaraciones en orden y devuelve el valor tan pronto como la condición se vuelve Verdadera. Si ninguna de las condiciones se cumple, se ejecuta el bloque ELSE y, si no está, se devuelve NULL. 

Supongamos que tenemos una base de datos de estudiantes y queremos calificarlos según sus calificaciones, entonces se puede usar la siguiente declaración SQL:

SELECT student_name, marks, CASE WHEN marks >= 85 THEN 'A' WHEN marks >= 75 AND marks 85 THEN 'B+' WHEN marks >= 65 AND marks 75 THEN 'B' WHEN marks >= 55 AND marks 65 THEN 'C' WHEN marks >= 45 AND marks 55 THEN 'D' ELSE 'F' END AS grading
FROM Students;

 

3) Subconsultas

Como científico de datos, el conocimiento de las subconsultas es esencial, ya que necesitan trabajar con diferentes tablas y el resultado de una consulta puede usarse nuevamente para restringir aún más los datos en la consulta principal. También se conoce como consulta interna o anidada. La subconsulta debe estar encerrada entre paréntesis y se ejecuta antes de la consulta principal. Si devuelve más de una fila, se denomina subconsulta de varias líneas y se deben usar operadores de varias líneas con ella. 

Supongamos que la compañía de seguros introduce una nueva póliza y cancela el seguro de personas cuya edad ha superado los 80 años. Esto se puede hacer con la ayuda de la subconsulta de la siguiente manera:

DELETE
FROM INSURANCE_CUSTOMERS
WHERE AGE IN (SELECT AGE FROM INSURANCE_CUSTOMERS WHERE AGE > 80 );

 

La subconsulta interna selecciona todos los clientes mayores de 80 años y luego se realiza la operación Eliminar en este grupo.

4) Se une

Las combinaciones SQL se utilizan para combinar las filas de varias tablas en función de la relación lógica entre ellas. Los 4 tipos de uniones SQL se enumeran a continuación:

  • Unir internamente: unión interna muestra solo aquellas filas de ambas tablas que cumplen la condición dada. Puede denominarse intersección en términos de terminología establecida.

     

    7 conceptos de SQL que debe conocer para la ciencia de datos

SELECT Student.Name
FROM Student
INNER JOIN Sports ON Student.ID = Sports.ID;

 

Devuelve aquellos alumnos que se han registrado en deportes. Nota: la identificación deportiva es la misma que la identificación de registro del estudiante.

  • Izquierda unirse: devuelve todos los registros de la tabla IZQUIERDA mientras que solo se muestran los registros coincidentes de la tabla derecha.

     

    7 conceptos de SQL que debe conocer para la ciencia de datos

SELECT Student.Name
FROM Student
LEFT JOIN Sports ON Student.ID = Sports.ID;

 

  • Únete a la derecha: Es justo lo contrario de lo que hace la combinación izquierda.

     

    7 conceptos de SQL que debe conocer para la ciencia de datos

SELECT Student.Name
FROM Student
RIGHT JOIN Sports ON Student.ID = Sports.ID;

 

  • Unión completa: contiene todas las filas de la tabla y, si no tiene una entrada coincidente correspondiente, se muestra un valor NULL.

     

    7 conceptos de SQL que debe conocer para la ciencia de datos

SELECT Student.Name
FROM Student
FULL JOIN Sports ON Student.ID = Sports.ID;

 

5) Procedimientos almacenados

Los procedimientos almacenados nos permiten almacenar múltiples declaraciones SQL en nuestra base de datos para usarlas más adelante. Permite la reutilización y también puede aceptar los valores de los parámetros cuando se le llama. Mejora el rendimiento y es más fácil hacer cualquier modificación con él. 

CREATE PROCEDURE SelectStudents @Major nvarchar(30), @Grade char(1) AS
SELECT *
FROM Students
WHERE Major = @Major AND Grade = @Grade GO; EXEC SelectStudents @Major = 'Data Science', @Grade = 'A';

 

Este procedimiento nos permite extraer a los estudiantes de diferentes carreras en base a sus calificaciones. Por ejemplo, estamos tratando de extraer a todos los estudiantes con especialización en ciencia de datos que tienen una calificación A. Tenga en cuenta que CREATE PROCEDURE es como la declaración de la función y debe llamarse mediante EXEC para fines de ejecución.

6) Formato de cadena

Todos sabemos que los datos sin procesar deben limpiarse para aumentar la productividad general, lo que da como resultado una toma de decisiones de calidad. El formato de cadenas juega un papel muy importante en este contexto e implica manipular las cadenas para eliminar cosas irrelevantes. SQL ofrece una amplia gama de funciones de cadena para transformar y trabajar con cadenas. Los 5 más utilizados entre ellos son los siguientes: 

  • CONCAT: se usa para agregar dos o más cadenas juntas.
SELECT CONCAT(Name, ' has a major of ', Major)
FROM Students
WHERE student_Id = 37;

 

  • SUSTRATO: devuelve la parte de la cadena y toma la posición inicial y la longitud de la subcadena que se devolverá en sus parámetros.
SELECT student_name,admission_date, SUBSTR(admission_date, 4, 2) AS day
FROM Students

 

La columna del día aparecerá por separado que se extrae de la fecha_de_admisión.

  • PODAR: el trabajo principal de recorte es eliminar los caracteres desde el principio de las cadenas, el final de las cadenas o ambos si se especifica. Debe especificar el carácter inicial, final o ambos, luego el carácter que se eliminará seguido de la cadena de la que se eliminará.
SELECT age, TRIM(trailing ' years' FROM age)
FROM Students

 

Cambiará “26 años” a “26”.

  • INSERTAR: nos permite insertar la cadena dentro de la cadena dada en la posición especificada. Debe mencionar la posición y la longitud de la nueva subcadena que desea escribir. Tenga en cuenta que esta nueva cadena sobrescribirá el texto anterior.
SELECT INSERT("OldWebsite.com", 1, 9, "NewWebsite"); 

 

Se actualizará a NewWebsite.come.

  • JUNTARSE: se puede usar para reemplazar los valores nulos con valores definidos por el usuario que a menudo se requieren en la ciencia de datos.
SELECT COALESCE (NULL, NULL, 10, 'John’')

 

Esto devolverá 10.

7) Funciones de ventana

Las funciones de ventana son similares a las funciones agregadas, pero no hacen que las filas se colapsen en una sola fila después del cálculo. En su lugar, las filas conservan sus identidades separadas. Se agrupan en tres categorías principales:

  • Funciones agregadas: muestra los valores agregados de las columnas numéricas como AVG(), COUNT(), MAX(), MIN(), SUM(), etc.
SELECT name, AVG(salary) over (PARTITION BY department) FROM Employees;

 

Muestra el salario promedio de los diferentes departamentos de la tabla de empleados.

  • Funciones de valor: a cada partición se le asignan algunos valores utilizando las funciones de la ventana de valores. Algunas de las funciones de valor más utilizadas son LAG(), LEAD(), FIRST_VALUE(), LAST_VALUR() y NTH_VALUE().
SELECT bank_branch, month, income, LAG(income,1) OVER ( PARTITION BY bank_branch ORDER BY month ) income_next_month
FROM Bank;

 

Comparamos los ingresos de diferentes sucursales del banco del mes actual con el anterior.

  • Funciones de clasificación: son útiles para asignar una clasificación a las filas en función de un ordenamiento predefinido. ROW_NUMBER(), RANK(), DENSE_RANK(), PERCENT_RANK(), NTILE() son algunos de los que se mencionan.
SELECT product_name, price, RANK () OVER ( ORDER BY list DESC ) price_hightolow
FROM Products;

 

Los productos se clasifican en función de sus precios utilizando RANK().

Espero que haya disfrutado leyendo el artículo y que le brinde una comprensión integral de cuánto SQL necesita saber como científico de datos. Aquí hay algunos recursos para ayudarlo si desea profundizar en estos conceptos:

Tutorial de SQLServer

TutorialsPoint

W3Schools
 
 
Kanwal Mehreen es un aspirante a desarrollador de software con un gran interés en la ciencia de datos y las aplicaciones de IA en medicina. Kanwal fue seleccionado como Google Generation Scholar 2022 para la región APAC. A Kanwal le encanta compartir conocimientos técnicos escribiendo artículos sobre temas de actualidad y le apasiona mejorar la representación de las mujeres en la industria tecnológica.
 

punto_img

Información más reciente

punto_img