Conceptos indispensables para ciencia de datos

Conceptos indispensables para ciencia de datos

Juan Gabriel Gomila Juan Gabriel Gomila
12 minutos

Leer el artículo
Audio generated by DropInBlog's Blog Voice AI™ may have slight pronunciation nuances. Learn more

Los principiantes suelen ignorar la mayoría de los conocimientos estadísticos fundamentales en la ciencia de datos. Para entender mejor los diferentes modelos y las diversas técnicas, estos conceptos son esenciales.

Funcionan como conocimiento básico para varios conceptos relacionados con la Ciencia de Datos, el Aprendizaje de las Máquinas y la Inteligencia Artificial.

Esta es la lista de los conceptos en la Ciencia de Datos que se tratan en este artículo.

  1. Medidas de tendencia central.
  2. Medidas de dispersión.
  3. Población y muestra.
  4. Teorema del límite central.
  5. Muestreo y técnicas de muestreo.
  6. Sesgo de selección.
  7. Correlación y varios coeficientes de correlación.

¡Vamos a entrar en acción!

1 - Medidas de tendencia central

En primer lugar, destacar que una medida de tendencia central es un valor único que intenta describir un conjunto de datos identificando la posición central dentro de ese conjunto de datos. Los tres valores más comunes usados en ciencia de datos como medida de centro son,

  • La media es el promedio de todos los valores de los datos.
conceptos ciencia de datos
La media de 'n' valores de datos
  • La mediana es el valor medio en los datos ordenados. La mediana es una mejor medida del centro que la media ya que no se ve afectada por los valores atípicos.
  • La Moda es el valor más frecuente en los datos.

 

2 - Medidas de propagación

En segundo lugar, otro de los conceptos en la ciencia de datos son las medidas de propagación. Éstas describen cuán similar o variado es el conjunto de valores observados para una determinada variable (elemento de datos). Las medidas de propagación incluyen el rango, los cuartiles y el rango intercuartil, la varianza y la desviación estándar.

  • El rango es la diferencia entre el valor más pequeño y el valor más grande de los datos.
  • Los cuartiles dividen un conjunto de datos ordenados en cuatro partes iguales. Y se refieren a los valores del punto entre los cuartos.
    El cuartil inferior (Q1) es el valor entre el 25% más bajo de los valores y el 75% más alto de los valores. También se llama el 25º percentil.
    El segundo cuartil (Q2) es el valor medio del conjunto de datos. También se llama el 50º percentil, o la mediana.
    El cuartil superior (Q3) es el valor entre el 75% más bajo y el 25% más alto de los valores. También se llama el 75º percentil.

conceptos ciencia de datos

 

Rango Intercuartílico

El rango intercuartílico (IQR) es la diferencia entre los cuartiles superior (Q3) e inferior (Q1). Describe el 50% medio de los valores cuando se ordenan de menor a mayor. El IQR es a menudo visto como una mejor medida de la propagación que el rango, ya que no se ve afectado por los valores atípicos.

  • La varianza de todos los puntos de datos cuya media es μ, cada punto de datos está denotado por Xi, y N número de puntos de datos está dado por,
conceptos ciencia de datos
La fórmula matemática de la Varianza

La desviación estándar es la raíz cuadrada de la varianza. La desviación estándar para una población está representada por σ.
En los conjuntos de datos con una dispersión pequeña, todos los valores están muy cerca de la media. Lo que da como resultado una pequeña varianza y una desviación estándar. Cuando un conjunto de datos está más disperso, los valores están más alejados de la media. Lo que da lugar a una mayor varianza y desviación estándar.

 

3 - Población y muestra

En tercer lugar, destacar que la población es el conjunto de posibles valores de datos.
Una muestra de un conjunto de datos contiene una parte, o un subconjunto, de una población. El tamaño de una muestra es siempre menor que el tamaño de la población de la cual se toma.

conceptos ciencia de datos

Un simple bosquejo para ilustrar la población y la muestra (Imagen del autor)

Por ejemplo, el conjunto de todos los habitantes de un país es "población" y un subconjunto de personas es "muestra" que suele ser menor que la población.

 

4 - Teorema del límite central

En cuarto lugar, está el Teorema del Límite Central. Éste es un concepto clave en la teoría de la probabilidad porque implica que los métodos probabilísticos y estadísticos que funcionan para las distribuciones normales pueden ser aplicables a muchos problemas relacionados con otros tipos de distribuciones.

El CLT afirma que "La toma de muestras de una población con un tamaño de muestra suficientemente grande, la media de las muestras, conocida como la "muestra media", se distribuirá normalmente. Esto es cierto independientemente de la distribución de la población".

Distribución de los cuartiles (Imagen por el autor)
Independientemente de la distribución de la población, la distribución de la muestra es normal. (Imagen de Wikipedia)

Otras sumas de CLT son,
* La media de la muestra converge en probabilidad y casi con toda seguridad en el valor esperado de la media de la población.
* La varianza de la población es igual al producto de la varianza de la muestra y el número de elementos de cada muestra.

 

5- Muestreo y técnicas de muestreo

En quinto lugar, vemos el muestreo. Es una técnica de análisis estadístico que se utiliza para seleccionar, manipular y analizar un subconjunto representativo de los puntos de datos para identificar patrones y tendencias en el conjunto de datos más amplio que se está observando.
Hay muchos métodos diferentes para extraer muestras de los datos; el ideal depende del conjunto de datos y del problema en cuestión. A continuación se indican las técnicas de muestreo más utilizadas:

Muestreo aleatorio simple: En este caso, cada valor de la muestra se elige enteramente al azar y cada valor de la población tiene la misma oportunidad, o probabilidad, de ser seleccionado.

Muestreo estratificado: En este método, la población se divide primero en subgrupos (o estratos) que comparten una característica similar. Se utiliza cuando cabe esperar razonablemente que la medición de interés varíe entre los distintos subgrupos y se quiere garantizar la representación de todos los subgrupos.

Muestreo de grupos: En una muestra por conglomerados, se utilizan subgrupos de la población como unidad de muestreo, en lugar de valores individuales. La población se divide en subgrupos, conocidos como clusters, que se seleccionan al azar para ser incluidos en el estudio.

Muestreo sistemático: Los valores individuales se seleccionan a intervalos regulares del marco de muestreo. Los intervalos se eligen para garantizar un tamaño de muestra adecuado. Si se necesita un tamaño de muestra n de una población de tamaño x, se debe seleccionar cada x/nº individuo para la muestra.

 

6 - Sesgo de selección

El sesgo de selección (también llamado sesgo de muestreo) es un error sistemático debido a una muestra no aleatoria de una población, que hace que algunos valores de la población tengan menos probabilidades de ser incluidos que otros, lo que da lugar a una muestra sesgada, en la que todos los valores no están igualmente equilibrados o representados objetivamente.
Esto significa que no se logra una aleatoriedad adecuada, con lo que se garantiza que la muestra obtenida no es representativa de la población que se pretende analizar.
En el caso general, los sesgos de selección no pueden superarse con el análisis estadístico de los datos existentes únicamente. Se puede evaluar el grado de sesgo de selección examinando las correlaciones.

 

7 - Correlación

Por último, dentro de los conceptos de la ciencia de datos podemos encontrar la correlación. Es simplemente una métrica que mide el grado en que las variables (o características o muestras o cualquier grupo) están asociadas entre sí. En casi cualquier análisis de datos, los científicos de datos compararán dos variables y cómo se relacionan entre sí.

Las siguientes son las técnicas de correlación más utilizadas,
a) Covarianza
b) Coeficiente de Correlación de Pearson
c) Coeficiente de Correlación de Rango de Spearman

Covarianza
Para dos muestras, digamos, X e Y, que E(X), E(Y) sean los valores medios de X, Y respectivamente, y 'n' sea el número total de puntos de datos. La covarianza de X, Y viene dada por,

Una fórmula matemática para la covarianza de X, Y

El signo de la covarianza indica la tendencia de la relación lineal entre las variables.

conceptos ciencia de datos
Un gráfico de muestra de X, Y cuando la covarianza(X, Y) es positiva y negativa respectivamente (Imagen de Wikipedia)

 

Coeficiente de Correlación de Pearson

El Coeficiente de Correlación de Pearson es una estadística que también mide la correlación lineal entre dos características. Para dos muestras, X, Y dejemos que σX, σY sean las desviaciones estándar de X, Y respectivamente. El PCC de X, Y viene dado por,

Una fórmula matemática para el PCC de X, Y

Tiene un valor entre -1 y +1.

conceptos ciencia de datos
Un gráfico de muestra de variables con el valor de PCC entre -1 y 0, 0 y +1 respectivamente
Un gráfico de muestra de variables con el valor de PCC -1, 0, 1 respectivamente

 

Coeficiente de Correlación de Rango de Spearman

El Coeficiente de Correlación de Rango de Spearman (SRCC) evalúa cuán bien puede describirse la relación entre dos muestras mediante una función monótona (ya sea lineal o no) en la que el PCC puede evaluar sólo las relaciones lineales.
El coeficiente de correlación de rango de Spearman entre las dos muestras es igual al coeficiente de correlación de Pearson entre los valores de rango de esas dos muestras. El rango es la etiqueta de posición relativa de las observaciones dentro de la variable.

Intuitivamente, el coeficiente de correlación del rango de Spearman entre dos variables será alto cuando las observaciones tengan un rango similar entre las dos variables y bajo cuando las observaciones tengan un rango diferente entre las dos variables.

El coeficiente de correlación del rango de Spearman se encuentra entre +1 y -1 donde:

1 es una correlación positiva perfecta
0 no es una correlación
-1 es una correlación negativa perfecta


De manera similar, si deseas leer la versión original en inglés de los conceptos de la ciencia de datos, haz clic aquí.

 

Aprende más sobre Ciencia de Datos

Si deseas aprender mas sobre ciencia de datos, te invitamos a que disfrutes con descuento, los mejores cursos de Juan Gabriel Gomila en Frogames Formación:

También tienes disponible nuestra Ruta de Aprendizaje en Análisis de Datos, donde irás aprendiendo poco a poco hasta convertirte en todo un experto en ciencia de datos.

Por último, Si disfrutas de la información que compartimos, te invitamos a darle “Me Gusta” a nuestra página de Facebook y seguirnos en nuestro canal de YouTube. En estos espacios, encontrarás una amplia variedad de contenido cuidadosamente preparado para ti. Además, si deseas recibir actualizaciones directas, puedes suscribirte a nuestra página y, como agradecimiento, te obsequiaremos un regalo digital especial que hemos creado pensando en ti.

Nos encantaría contar con tu presencia en nuestra plataforma Frogames Formación y en nuestras redes sociales, donde podrás acceder a recursos, cursos online y más material exclusivo. Al unirte a nuestra comunidad, no solo te mantendrás al día con nuestras últimas novedades, sino que también formarás parte de un grupo apasionado por el conocimiento y el aprendizaje continuo. ¡Estamos ansiosos por darte la bienvenida y compartir contigo todo lo que tenemos preparado!

¡Nos vemos en clase!

« Volver al Blog

Obtener mi regalo ahora