Logotipo de Zephyrnet

Problemas comunes de datos (y soluciones)

Fecha:

Problemas comunes de datos (y soluciones)
Shubham dhage vía Unsplash

 

El auge de los científicos de datos se debe únicamente a las grandes cantidades de datos que pueden brindarnos soluciones a nuestros problemas de la vida real. Sin embargo, cuando se trata de Data Science, la teoría que se está poniendo en práctica no siempre es la misma que la realidad. 

Como científico de datos, es muy normal recibir grandes cantidades de datos que tienen problemas y requieren una gran limpieza de datos, diseño de modelos y ejecución de modelos. Los problemas se deben únicamente a la complejidad y el alcance de los datos que se utilizan para responder una pregunta. Los problemas en los datos pueden ser la cantidad de características, los errores, las características y más. 

Al manejar problemas con sus datos, es vital que los problemas se manejen de manera correcta y eficiente.

Entonces, echemos un vistazo a algunos de los problemas comunes con los datos y las soluciones para ellos.

No hay suficientes datos

 
El componente principal de un científico de datos son los datos; es parte de su título. Sin datos, el movimiento de la ciencia de datos es limitado, lo que sería un problema para un mundo que ahora depende en gran medida de los datos. 
Si no hay suficientes datos, se convierte en un problema, ya que es un elemento importante para el entrenamiento de algoritmos. Si los datos son limitados, pueden generar resultados inexactos e ineficientes, lo que le cuesta a la empresa mucho tiempo y recursos. Sin embargo, existen soluciones para generar más datos para entrenar su modelo. 

1. Generar aleatoriamente

 
Si conoce los valores que está buscando, existe la posibilidad de generar aleatoriamente esos valores. 

Una forma de hacerlo es mediante pseudoaleatorio, que se genera con un generador de números pseudoaleatorios (PRNG). Este es un algoritmo que genera datos aparentemente aleatorios pero aún reproducibles. La reproducibilidad es la capacidad de obtener resultados consistentes usando los mismos datos y código que el estudio original.

También puede usar el análisis de entrada para comprender la distribución de los datos, que luego puede imitar o replicar valores en función de la distribución de datos.

2. Aumento de datos

 
El aumento de datos es una estrategia utilizada para aumentar significativamente la diversidad de datos disponibles para entrenar modelos, sin tener que recopilar nuevos datos. Por ejemplo; Las técnicas como recorte, relleno y volteo horizontal se utilizan mucho para entrenar grandes redes neuronales.

Sin embargo, debe recordar la hipótesis y la tarea que se intenta resolver para asegurarse de que está generando entradas válidas. 

3. Evite el sobreajuste

 
Cuando se trabaja con conjuntos de datos más pequeños, la probabilidad de sobreajuste aumenta automáticamente. Para recordarle: el sobreajuste es un error de modelado que ocurre cuando una función está demasiado alineada con un conjunto limitado de puntos de datos.

Para evitar el sobreajuste, puede utilizar técnicas como la selección de características, la regularización o la validación cruzada. 

demasiados datos

 
Hay un problema con no tener suficientes datos, pero también hay un problema con tener demasiados datos. Tener más datos no garantiza que su modelo produzca resultados precisos. 

Factores como la potencia computacional, el tiempo necesario y el resultado general. Puede darse cuenta de que usar menos datos permite que su modelo funcione de manera más eficiente y rápida. Hay cosas que puede tener en cuenta cuando trabaja con una gran cantidad de datos. 

1. valor p

 
Según la Wikipedia , el valor p es:

“Es la probabilidad de obtener resultados de prueba al menos tan extremos como los resultados realmente observados, bajo el supuesto de que la hipótesis nula es correcta”.

En términos sencillos, el valor p es la probabilidad de que los resultados de los datos de su muestra se hayan producido por casualidad, por lo tanto, un valor p bajo es bueno. Cualquier valor < 0.5 % es estadísticamente significativo, lo que nos permite rechazar la hipótesis nula. El valor p depende del tamaño de los datos que se prueban: cuanto mayor sea el tamaño de la muestra, menor será el valor p. Si el tamaño de la muestra es grande, existe una mayor probabilidad de encontrar una relación significativa, si es que existe. A medida que aumenta el tamaño de la muestra, se reduce el impacto del error aleatorio.

Si su valor p es demasiado alto debido a que tiene demasiados datos, puede tomar varias muestras de los datos para entrenar su modelo y generar mejores valores p.

2. Poder computacional

 
El poder computacional es la capacidad de una computadora para realizar una determinada tarea con velocidad y precisión. Al entrenar un modelo con un gran conjunto de datos, puede volverse muy difícil ya que necesitará mucha potencia computacional y memoria para poder procesar los datos. Requiere demasiado tiempo y el proceso no sería eficiente en su conjunto. Una solución es:

 
muestra estratificada

El muestreo estratificado es un método que involucra la división de datos en subgrupos más pequeños conocidos como estratos. En el muestreo aleatorio estratificado, o estratificación, los estratos se forman en función de atributos o características únicos, como el ingreso o el grupo de edad en los datos del censo. 

¿Cuántos datos se consideran una buena cantidad?

 
Es difícil determinar qué se considera una “buena” cantidad de datos ya que no existe una regla establecida. Todo depende del tipo de datos, la complejidad del problema y otros factores como los costos. Sin embargo, a continuación hay una solución que puede tener en cuenta al decidir un tamaño de muestra efectivo:

  1. Muestras – Tomar submuestras de los datos, asegurando que se cubre un determinado porcentaje de cada variable. Un ejemplo de esto es lo que cubrimos anteriormente, Muestreo estratificado. 

Sin embargo, todo se reduce al tipo de problema de aprendizaje automático que está tratando de resolver. Por ejemplo: 

  1. Problema de clasificación de imágenes – Esto requiere decenas de miles de imágenes para crear un clasificador con resultados precisos. 
  2. Problema de análisis de sentimiento – Debido a la cantidad de palabras y frases, esto también requiere miles de textos de ejemplo. Un modelo de N-grama se construye contando la frecuencia de las secuencias de palabras que aparecen en el texto del corpus y luego estimando las probabilidades.
  3. Problema de regresión – muchos investigadores han sugerido que tiene 10 veces más observaciones que características. Por ejemplo, si tenemos tres variables independientes, entonces sería bueno tener un tamaño de muestra mínimo de 30

Todavía no hay una regla establecida

 
Hay una guía aproximada que las personas siguen de los investigadores y otros científicos de datos que han estado creando modelos durante años, sin embargo, estos no están destinados a ser tomados como reglas de oro o inamovibles. 
Dependiendo de la correlación entre diferentes variables, es posible que necesite más datos, pero también es posible que solo necesite menos datos. Durante las primeras etapas del flujo de trabajo, debe hacerse estas preguntas:

  1. ¿Cuál es mi plazo deseado?

Si está tratando de predecir lo que sucederá en los próximos 5 años, tener datos que solo valgan 1 año no será lo suficientemente eficiente. Necesitará un mínimo de 5 años y debe asegurarse de que no falten muchos datos para producir resultados precisos. 

  1. ¿Cuál es la granularidad de mis datos?

Si necesito los datos de un año, ¿mis datos corresponden a eso? ¿Mis datos están en días, semanas o meses? Los datos de un año pueden ser 365 puntos de datos (días), 52 puntos de datos (semanas) o 12 puntos de datos (meses). Todos son igualmente válidos, sin embargo se trata de su problema en cuestión y lo que requiere. 

 
 
nisha aria es científico de datos y escritor técnico independiente. Ella está particularmente interesada en proporcionar consejos o tutoriales sobre la carrera de Data Science y conocimiento basado en la teoría sobre Data Science. También desea explorar las diferentes formas en que la Inteligencia Artificial es o puede beneficiar la longevidad de la vida humana. Una estudiante entusiasta que busca ampliar sus conocimientos tecnológicos y sus habilidades de escritura, mientras ayuda a guiar a otros.
 

punto_img

Información más reciente

punto_img