Logotipo de Zephyrnet

Las 3 formas principales de importar datos en R mediante copiar y pegar

Fecha:

Introducción

R es un lenguaje de programación poderoso y versátil usado para análisis estadístico, Visualización de datosy aprendizaje automático. El éxito de un proyecto de análisis de datos se basa en importar correctamente los datos a R. Si bien existen varios métodos para importar datos a R, uno de los métodos más simples y convenientes es copiar y pegar datos de fuentes externas. Estas fuentes son hojas de cálculo, editores de texto o sitios web. En este artículo, analizaremos las tres formas principales de importar datos en R mediante copiar y pegar. Los tres métodos son R script, read.delim en R y R datapasta. Con estos métodos puede importar y cargar datos en R.

Estos métodos le permitirán importar rápida y fácilmente datos en diferentes formatos y fuentes de R y usarlos en su proyecto.

OBJETIVOS DE APRENDIZAJE

  • Comprenda por qué usar el método de copiar y pegar para obtener datos en R.
  • Comprenda cómo usar la función read.delim desde la base R para importar datos en R usando copiar y pegar.
  • Aprenda a usar el paquete clipr para importar datos a R usando copiar y pegar.
  • Explore el paquete R datapasta para pegar datos directamente en R con el formato correcto.

Este artículo fue publicado como parte del Blogatón de ciencia de datos.

Índice del contenido

¿Por qué importar datos en R usando el método de copiar y pegar?

Obtener datos para el análisis es un desafío por varias razones. Una de las razones es que es posible que los datos no siempre estén fácilmente disponibles, y recopilarlos requiere esfuerzos costosos y que consumen mucho tiempo. Además, es posible que los datos no estén en un formato adecuado para el análisis y que sea necesario un preprocesamiento para limpiarlos, organizarlos y transformarlos. Copiar y pegar datos usando diferentes paquetes en R puede ayudar a superar algunos de estos desafíos.

Importación de datos en R usando la función read.delim()

La primera forma que usaremos para importar los datos a R es usando el método de copiar y pegar. Para ello utilizaremos directamente la función read.delim de base R. El comando read.delim() en R se usa para leer datos tabulares en forma de archivos de texto delimitados (donde un delimitador específico, como una coma, un tabulador, un espacio u otros caracteres, separa las columnas). Simplemente copie los datos de una fuente externa, como una hoja de cálculo o un archivo de texto, y péguelos en la consola de R o en el editor de scripts de R. Tomemos el siguiente ejemplo donde tenemos datos en una hoja de Excel que queremos importar a RStudio:

"Importar datos en R

Seleccione y copie los datos requeridos usando la opción de copiar o el atajo CTRL+C para importar los datos requeridos. Luego, regrese a RStudio y use el siguiente comando para guardar y cargar datos en R en un marco de datos llamado "df":

df<-read.delim("clipboard")

Después de ejecutar este comando, los datos en el portapapeles se guardarán en el marco de datos "df". Verifiquemos los datos imprimiendo las primeras filas usando la función "cabeza":

head(df)

Salida:

Primeras filas del marco de datos

Primeras filas del marco de datos

Es importante tener en cuenta que la primera línea de la tabla seleccionada es la fila del encabezado. Además, los datos almacenados en un archivo TXT se pueden copiar y pegar en R mediante la función read.delim. Tomemos el siguiente archivo de texto:

"Importar datos en R

Para importar estos datos, usaremos read.delim() en R y especificaremos que el argumento del separador sea igual a un espacio, ya que los datos de texto están separados por espacios en blanco. Primero, copiaremos los datos requeridos del archivo de texto, regresaremos a RStudio y usaremos el siguiente comando para guardar y cargar datos en R en un nuevo marco de datos llamado "df1":

df1 <- read.delim("clipboard", sep = " ")

Verifiquemos nuevamente los datos imprimiendo las primeras filas usando la función "cabeza":

head(df1)

Salida:

Imprimiendo las primeras filas del marco de datos

Imprimiendo las primeras filas del marco de datos

Aunque el resultado de este ejemplo es similar al anterior, esta vez importamos datos de un archivo de texto en lugar de un archivo de Excel.

Importación de datos en R usando el paquete Clipr

A continuación, usaremos el paquete clipr para importar los datos a R usando el método de copiar y pegar. Este paquete proporciona funciones para leer y escribir datos desde el portapapeles.

Para usar el paquete clipr, primero debe instalarse ejecutando el siguiente comando:

install.packages("clipr")

Una vez instalada, cargue la biblioteca clipr usando la función library():

library(clipr)

Ahora usaremos la función read_clip_tbl() del paquete clipr para obtener directamente el contenido del portapapeles de las hojas de cálculo en marcos de datos.

Usaremos la hoja de cálculo de Excel anterior para explorar el paquete clipr. Seleccionaremos los datos en la hoja de cálculo de excel y los copiaremos mediante la opción copiar. Luego, regresaremos a RStudio y usaremos el siguiente comando para guardar y cargar datos en R en un dataframe llamado “df2”:

df2 <- read_clip_tbl() 

El código anterior lee los datos del portapapeles y devuelve un tibble (una implementación moderna y ordenada de un marco de datos en R) almacenado en la variable "df2". La función read_clip_tbl() detecta automáticamente el delimitador y la fila del encabezado, por lo que no necesita especificar ningún argumento.

Después de ejecutar el comando anterior, los datos en el portapapeles se guardarán en el marco de datos "df2".

df2
Salida: 
salida del marco de datos impreso

Aparte de la función read_clip_tbl(), el paquete clipr proporciona muchas funciones. Por ejemplo, en R, podemos usar la función write_clip() del paquete clipr para escribir datos en el portapapeles. Esto es útil al copiar datos de R y pegarlos en otra aplicación (por ejemplo, Excel, un editor de texto o un correo electrónico).

df <- write_clip(c("Getting Data", "using", "clipr"))

El formato de los datos copiados depende del tipo de datos de nuestra variable, es decir, si es un vector o un marco de datos.

Podemos averiguar si el portapapeles está disponible para su uso llamando a la función clipr_disponible().

clipr_available()

Salida:

salida de la función clipr

Como se muestra arriba, esta función devuelve un valor booleano que resalta si el portapapeles está disponible actualmente o no.

Además, si queremos borrar el portapapeles, podemos usar la función clear_clip(). Como sugiere el nombre, esta función borrará el contenido del portapapeles, asegurando que no queden datos antiguos o no deseados.

Importación de datos en R usando el paquete Datapasta

Datapasta es un paquete de complementos y funciones de RStudio que permite a los usuarios copiar datos disponibles en fuentes como Excel, Jupyter y sitios web, y pegarlos directamente en R con el formato correcto.

"Importar datos en R

R Datapasta simplifica el proceso de incrustar datos sin procesar en archivos Rmarkdown, creando ejemplos reproducibles para StackOverflow y pegando rápidamente la salida vectorial de otras consultas en dplyr::filter().

Primero, instalaremos el paquete datapasta de CRAN usando el siguiente comando:

install.packages("datapasta")

Este paquete contiene un complemento de RStudio que permite a los usuarios pegar tablas web almacenadas en su portapapeles. Después de instalar el paquete R datapasta, reinicie RStudio para acceder a los complementos de datapasta.

Importar datos en R

Como puede ver en la imagen de arriba, Datapasta ofrece varias opciones para copiar y pegar datos. Por ejemplo, copiemos una tabla de Wikipedia y péguelo en la ubicación actual del cursor.

Importar datos en R

Fuente: en.wikipedia.org

Para pegar datos como tribble(), simplemente copiaremos el encabezado de la tabla y las filas de datos, luego pegaremos el complemento "Pegar como tribble" en el editor de código fuente. Para pegar los datos, podemos optar por el atajo de teclado ctrl + shift + t. No olvides asignarlo a un objeto para seguir trabajando con él.

Importar datos en R

Tribble pegado usando datapasta

La función tribble_paste() es bastante flexible y puede adivinar el separador y los tipos de datos del portapapeles. Sin embargo, puede haber casos en los que falle. Los separadores admitidos incluyen | (tubería), t (tabulador), (coma) y ; (punto y coma). En la mayoría de los casos, los datos copiados de Internet o de hojas de cálculo estarán delimitados por tabuladores. La función también intentará reconocer si no hay una fila de encabezado y crear un valor predeterminado para el usuario.

A continuación, usaremos otro complemento de R datapasta "pegar como data.frame". Seleccionaremos los mismos datos que se muestran en el ejemplo anterior, y esta vez los pegaremos como data.frame.

Marco de datos pegado usando datapasta

Marco de datos pegado usando datapasta

Como se muestra en el resultado anterior, pegó la selección de datos. Además, sin ningún formato, le dice a R que considere las entradas de la columna de edad como números enteros con la extensión L y las dos primeras entradas de la columna como cadenas. Podemos asignarlo a un objeto llamado df e imprimir las primeras filas usando la función de encabezado.

head(df)

Salida:

marco de datos con filas y columnas

A veces puede ser innecesario crear un marco de datos completo y una matriz simple es suficiente. En tales casos, el atajo para pegar como vector (shift+cmd+V) se puede usar para convertir una única fila de datos copiada en un vector.

Vector pegado usando pasta de datos

Vector pegado usando pasta de datos

Conclusión

En conclusión, este artículo analiza tres formas de importar datos a R mediante el método de copiar y pegar. Comenzamos con la función read.delim desde la base R, donde podíamos importar directamente los datos con este enfoque. A continuación, analizamos el paquete clipr, que proporciona funciones para leer datos desde/hacia el portapapeles. Finalmente, analizamos el paquete R datapasta, que permite a los usuarios copiar datos de varias fuentes y pegarlos directamente en R con el formato adecuado. Estos métodos le permitirán importar datos rápida y fácilmente y utilizarlos en su proyecto.

Estas son las conclusiones clave de este artículo:

  1. Podemos importar datos a R en CSV, Excel y TSV. Sin embargo, es importante verificar los datos importados en busca de errores e inconsistencias después de importarlos a R.
  2. El método de copiar y pegar es muy útil cuando se trabaja con datos sin formato o sin estructura. En tal situación, podemos copiar los datos de páginas web, documentos PDF o correos electrónicos y pegarlos directamente en R usando los paquetes datapasta o clipr. Esto ahorra mucho tiempo y esfuerzo en comparación con escribir y cargar datos manualmente en R o convertirlos a un formato de archivo específico antes de importarlos.
  3. Dependiendo del tamaño y la complejidad de los datos, diferentes métodos pueden ser más apropiados. Por ejemplo, read.delim puede ser más adecuado para grandes conjuntos de datos e importar datos de archivos de valores separados por tabuladores (TSV), mientras que clipr o datapasta podrían ser mejores para conjuntos de datos más pequeños.

Los medios que se muestran en este artículo no son propiedad de Analytics Vidhya y se utilizan a discreción del autor.

punto_img

Información más reciente

punto_img