Una vez que se han calculado las medidas de tendencia central para un conjunto de datos, es necesario contar con otra medida estadística, que indique un comportamiento adicional del conjunto de datos, puesto que la media, la mediana y la moda, solo indican valores centrales de la distribución.
Las medidas de dispersión, también llamadas medidas de variación, indican qué tan alejados o dispersos se encuentran los datos, con respecto a sí mismos o con respecto a la medida del conjunto de datos.
Algunas de las medidas de dispersión más usadas son: el rango, la desviación media, la varianza y la desviación estándar o típica.
VARIANZA:
La varianza se define como el promedio de los cuadrados de las desviaciones de los datos con respecto a la media. Su valor indica la forma en que están distribuidos los datos con respecto a la media. Se representa mediante:
(aquí va el símbolo de varianza) = ∑ (x1 – x )2 / n
Donde:
x1 : Es el valor del i-ésimo dato
x : es la media del conjunto de datos (recuerden que la X lleva su rayita jeje)
n: es el número total de datos.
Ejemplo:
Determina el valor de la varianza para el siguiente conjunto de datos
a) 12 25 8 15 5 18 26 14 9 10
Primero se determina la media:
x= ∑x1 / n
x= 12+25+8+15+5+18+26+14+9+10 / 10
= 14.2
La varianza es:
(aquí va el símbolo de varianza) = ∑ (x1 – x )2 / n
(simbolo de varianza)=(12-14.2)2+(25-14.2)2+(8-14.2)2+(15-14.2)2+(5-14.2)2+(18-14.2)2+(26-14.2)2+(14-14.2)2+(9-14.2)2+(10-14.2)2
10
(simbolo de varianza)
= 443.6 / 10(simbolo de varianza) = 44.36
VARIANZA PARA DATOS AGRUPADOS
Cuando el conjunto de datos se tiene agrupado en una tabla de distribución de frecuencia, la varianza se obtiene en forma aproximada por:
(símbolo de varianza) = = ∑fi (Mi – x )2
n
donde:
fi = es el valor de la frecuencia del i-ésimo intervalo
M1= es el valor de la marca de clase del i-ésimo intervalo
x= es la media del conjunto de datos (la x lleva su rayita arriba)
n= es el número total de datos (n=∑ fi )
Se utiliza la marca de clase, por considerar que su valor es el representativo de los datos que se encuentran en cada intervalo.
DETERMINE LA VARIANZA para el siguiente conjunto de datos.
INTERVALO | FRECUENCIA |
0 – 50 | 7 |
50 - 100 | 15 |
100 - 150 | 28 |
150 - 200 | 22 |
200 - 250 | 11 |
250 - 300 | 13 |
300 - 350 | 9 |
350 - 400 | 25 |
400 - 450 | 10 |
Obtenemos el valor de la media:
x = ∑ fi Mi (la x con su marca de media)
n
Agregamos las columnas Mi fi Mi
INTERVALO | FRECUENCIA | Mi | fi Mi |
0 – 50 | 7 | 25 | 175 |
50 - 100 | 15 | 75 | 1125 |
100 - 150 | 28 | 125 | 3500 |
150 - 200 | 22 | 175 | 3850 |
200 - 250 | 11 | 225 | 2475 |
250 - 300 | 13 | 275 | 3575 |
300 - 350 | 9 | 325 | 6175 |
350 - 400 | 25 | 375 | 9375 |
400 - 450 | 10 | 425 | 4250 |
∑ | 150 | TOTAL | 34500 |
x= 34500 / 150
x=230
Ahora se agregan las columnas Mi - x y (Mi – x)2 (las X, con su marca de media)
INTERVALO | FRECUENCIA | M1 | fi M1 | | |
0 – 50 | 7 | 25 | 175 | -205 | 42025 |
50 - 100 | 15 | 75 | 1125 | -155 | 24025 |
100 - 150 | 28 | 125 | 3500 | -105 | 11025 |
150 - 200 | 22 | 175 | 3850 | -55 | 3025 |
200 - 250 | 11 | 225 | 2475 | -5 | 25 |
250 - 300 | 13 | 275 | 3575 | 45 | 2025 |
300 - 350 | 9 | 325 | 6175 | 95 | 9025 |
350 - 400 | 25 | 375 | 9375 | 145 | 21025 |
400 - 450 | 10 | 425 | 4250 | 195 | 38025 |
∑ | 150 | TOTAL | 34500 | | |
El valor de la varianza es:
(signo de varianza)= ∑fi (M1 – x )2 (la X con su marca de media)
n
(signo de varianza) =2133750 / 150
(signo de varianza) = 14 225
Que al sacarle la raíz cuadrada, se obtiene la DESVIACIÓN ESTÁNDAR de: 119.2686