11 paquetes R populares para principiantes en 2023

Este artículo fue publicado como parte del Blogatón de ciencia de datos.

Introducción

Estos paquetes proporcionan una variedad de funciones, que incluyen la manipulación y disputa de datos, Visualización de datos, aprendizaje automático, documentación dinámica, así como el manejo de fecha y hora. Estos paquetes son herramientas esenciales para trabajar con datos en R. Este artículo presenta estas 11 bibliotecas clasificadas según las tareas específicas realizadas al usarlas.

Paquetes de preprocesamiento de datos

dplyr

dplyr es una de las bibliotecas más utilizadas del conjunto de bibliotecas de tidyverse. Se utiliza principalmente para la manipulación de datos en R. Las cinco funciones más utilizadas en dplyr son:

mutar (): esta función agrega nuevas columnas a su marco de datos existente
select (): esta función lo ayuda a seleccionar columnas específicas del marco de datos
filter (): esta función extrae un subconjunto de información del marco de datos en función de las condiciones lógicas proporcionadas por usted.
summarise (): la función de resumen imprime el resumen completo de su marco de datos
organizar (): la función de organización reordena sus datos de acuerdo con los valores de la columna seleccionada.

Todas estas funciones se combinan fácilmente con la función 'group_by()', que permite realizar cualquier operación “por grupo”.

Además de los marcos de datos, dplyr hace que trabajar con otros backends computacionales sea accesible y eficiente, como dtplyr para grandes conjuntos de datos en memoria y dbplyr para manejar datos almacenados en una base de datos relacional que traduce código a SQL, sparklyr para grandes conjuntos de datos almacenados en Apache Spark. Puede obtener más información sobre dplyr esta página.

cuerda

stringr se usa ampliamente en actividades de limpieza y preparación de datos. stringr proporciona un conjunto de funciones que simplifica el trabajo con cadenas. Se basa en el paquete. cuerdas, que utiliza la biblioteca ICU C para ofrecer implementaciones rápidas y precisas de manipulaciones de cadenas básicas.

Las siete funciones principales en stringr enumeradas a continuación comienzan con 'str_' y toman un vector de cadenas como primer argumento:

str_detect(): esta función detecta la presencia de una coincidencia de patrón en una cadena.
str_count(): esta función cuenta el número de coincidencias en una cadena.
str_subset(): esta función devuelve las cadenas que contienen una coincidencia de patrón.
str_locate(): Esta función da la posición de las coincidencias de patrones en una cadena.
str_extract(): esta función extrae la primera coincidencia de patrón encontrada en cada cadena.
str_match(): esta función devuelve la primera coincidencia de patrón encontrada en cada cadena definida entre paréntesis.
str_replace(): esta función reemplaza el primer patrón coincidente en cada cadena con texto nuevo.
str_split(): esta función divide una cadena en varias piezas.

Puedes aprender más sobre stringr esta página.

lector

El propósito de readr es brindar una manera rápida y fácil de leer datos rectangulares de archivos delimitados como valores separados por comas (CSV) y valores separados por tabuladores (TSV). Está diseñado para analizar varios formatos de datos al mismo tiempo que proporciona un informe de problemas informativo cuando el análisis produce resultados inesperados.

Los siguientes formatos de archivo son compatibles con readr con estas funciones read_*():

leer_csv(): Para cargar un archivo de valores separados por comas (CSV), utilice la función read_csv().
leer_tsv(): Para cargar un archivo de valores separados por tabuladores (TSV), utilice la función read_tsv().
leer_delim(): La función read delim() se utiliza para leer las formas más populares de datos de archivos sin formato, valores separados por comas y valores separados por tabulaciones, es decir, las funciones read csv() y read_tsv(), respectivamente.
leer_fwf(): Para leer un archivo de ancho fijo, se usa la función read_fwf().
leer_tabla(): Para leer el tipo de datos textuales donde una o más columnas de espacio separan cada columna, se usa la función read_table().
leer_registro(): Para leer archivos de registro web, se utiliza la función read_log().

Puedes aprender más sobre readr esta página.

Paquetes de visualización de datos

ggplot2

ggplot2 es un paquete de visualización de datos para el lenguaje de programación estadística R. Fue creado por Hadley Wickham e implementa la gramática de gráficos de Leland Wilkinson, un esquema general para la visualización de datos, que divide los gráficos en componentes semánticos como escalas y capas. ggplot2 permite a los usuarios crear una amplia gama de gráficos estáticos, animados e interactivos utilizando una API consistente y concisa. Es beneficioso para visualizar datos complejos y crear gráficos personalizados. ggplot2 se usa ampliamente en la academia y la industria y se ha convertido en un elemento básico de la visualización de datos en R. Con ggplot2; puede construir casi cualquier tipo de gráfico.

Por lo general, comienza con la función ggplot(), proporciona un conjunto de datos y un mapeo estético dentro de la función aes(). Luego puede agregar diferentes capas para construir diferentes parcelas. Para que se vea hermoso, luego agrega diferentes colores y usa especificaciones de facetado como facet_wrap () y muchas más. Puedes aprender más sobre ggplot2 esta página.

Folleto

RPubs - Mapas de folletos básicos en R

Es un paquete JavaScript de código abierto que se utiliza principalmente para crear mapas interactivos. Además, puede usar estos mapas directamente desde la consola R. Puede diseñar y personalizar su mapa usando combinaciones arbitrarias de mosaicos de mapa, polígonos, marcadores, líneas, etc. Lea sobre el paquete de folletos esta página.

Paquete de aprendizaje automático

Signo de intercalación

El paquete caret (abreviatura de Clasificación y entrenamiento de regresión) es un conjunto de herramientas para crear modelos predictivos en R. Proporciona funciones para preprocesar datos, crear objetos de modelo, entrenar modelos, evaluar el rendimiento del modelo y ajustar los hiperparámetros del modelo. El paquete caret está diseñado para agilizar el proceso de entrenamiento de modelos y permitir a los usuarios comparar y seleccionar fácilmente entre una amplia gama de tipos de modelos y parámetros de ajuste. Admite una amplia gama de tipos de modelos, incluidos algoritmos de regresión lineal y no lineal, clasificación y agrupamiento, y tiene una interfaz coherente para trabajar con estos modelos. El paquete caret se usa ampliamente para el aprendizaje automático en R. Puede obtener más información sobre caret esta página.

Paquetes de documentación dinámica

tejedor

La tejedor package es un paquete de R que permite a los usuarios incrustar código R y generarlo en una variedad de formatos de documentos, incluidos HTML, PDF y Microsoft Word. Está construido sobre el sistema Sweave, que Friedrich Leisch desarrolló para permitir a los usuarios mezclar código R y documentos LaTeX.

knitr agrega una serie de características a Sweave, que incluyen:

la capacidad de incluir código y resultados de otros lenguajes, como Python y SQL
, cree informes dinámicos que se puedan actualizar automáticamente cuando cambien los datos subyacentes o el código.

knitr es una opción popular para crear documentos de investigación reproducibles.

Rebaja de R

Paquetes R

La Rebaja de R package es un paquete de R que permite a los usuarios crear documentos dinámicos que combinan texto, código y salida en un solo documento. Los documentos de R Markdown se crean utilizando un lenguaje de marcado simple y fácil de aprender llamado Markdown, una variante de la popular sintaxis de Markdown. Los documentos de R Markdown se pueden representar en varios formatos, incluidos HTML, PDF y Microsoft Word. Son útiles para crear investigaciones reproducibles, lo que permite a los usuarios incrustar código R y generar resultados directamente en el documento. El paquete R Markdown proporciona una variedad de funciones para formatear y personalizar documentos R Markdown, incluida la capacidad de incluir imágenes, tablas y otros elementos de formato. Es una poderosa herramienta para crear una amplia gama de documentos.

Paquete de datos y tiempo

lubricar

Paquetes R

El paquete lubridate es un conjunto de herramientas para trabajar con conjuntos de datos de fecha y hora en R. Proporciona funciones para analizar, manipular y dar formato a fechas y horas y para realizar operaciones comunes como encontrar la diferencia entre dos fechas o agregar un número específico de días a una fecha. lubridate facilita el trabajo con datos de fecha y hora en R al proporcionar una interfaz coherente e intuitiva para las tareas diarias. También admite trabajar con zonas horarias y maneja automáticamente problemas como el horario de verano. lubridate es una opción popular para trabajar con datos de fecha y hora en R y es un paquete esencial que deben conocer los principiantes. Puedes aprender más sobre lubridate esta página.

Paquete de mesa interactiva

DT

El paquete DT es un paquete R que permite la creación de tablas interactivas en R. Se basa en la biblioteca de JavaScript DataTables, que ofrece una interfaz rápida y rica en funciones para generar tablas interactivas en navegadores web. El paquete DT permite a los usuarios crear tablas en R que los usuarios pueden ordenar, filtrar y buscar y que se pueden paginar para grandes conjuntos de datos. También proporciona funciones para personalizar la apariencia y el comportamiento de las tablas, incluida la capacidad de agregar formato, información sobre herramientas y otras funciones. El paquete DT es una opción popular para generar tablas interactivas en R y los principiantes pueden usarlo fácilmente. Puedes aprender más sobre DT esta página.

Paquete de paneles

Brillante

Shiny es un paquete ampliamente utilizado en R. Shiny lo ayuda a compartir sus hallazgos con otros y simplificar su comprensión a través de imágenes. Es más sencillo crear aplicaciones web interactivas con Shiny.

Puede crear paneles, incrustar aplicaciones independientes en documentos R Markdown y alojarlos en un sitio web. Además, puede agregar temas CSS, widgets HTML y acciones de JavaScript a sus aplicaciones Shiny. Puedes aprender más sobre shiny esta página.

Conclusión

En conclusión, los 11 paquetes R populares para principiantes en 2023 mencionados en este artículo brindan una amplia gama de herramientas y funcionalidades para trabajar con datos en R. Desde la manipulación y visualización de datos hasta el aprendizaje automático y la documentación dinámica, estos paquetes son herramientas esenciales para cualquier usuario R. Algunas conclusiones clave de este artículo incluyen:

La dplyr, cuerday lector Los paquetes son necesarios para la manipulación y disputa de datos.
ggplot2 y folleto son poderosas herramientas para crear gráficos estáticos, animados e interactivos.
signo de intercalación es una opción popular para el aprendizaje automático en R para principiantes.
tejedor y Rebaja de R son útiles para crear documentos de investigación dinámicos.
lubricar es una poderosa herramienta para trabajar con datos de fecha y hora en R.
DT proporciona una interfaz para crear tablas interactivas en R.
Brillante es una herramienta popular para crear hermosos tableros en R.

En general, estos paquetes son herramientas esenciales para que los principiantes aprendan en 2023, ya que brindan una amplia gama de funcionalidades para trabajar con datos en R.

Los medios que se muestran en este artículo no son propiedad de Analytics Vidhya y se utilizan a discreción del autor.

Relacionado:

Distribución de relaciones públicas y contenido potenciado por SEO. Consiga amplificado hoy.
Platoblockchain. Inteligencia del Metaverso Web3. Conocimiento amplificado. Accede Aquí.
Fuente: https://www.analyticsvidhya.com/blog/2023/01/11-popular-r-packages-for-beginners-in-2023/

Inteligencia de datos generativa