Medidas de Dispersión

En las secciones anteriores (ordenamiento, agrupacion de datos y medidas de tendencia central) se ha visto que es de utilidad ubicar el centro del conjunto de datos. Pero identificar una de las medidas de tendencia central rara vez es sufiente para describir de manera más completa a los datos. Una descripción más completa del conjunto de datos, puede obtenerse si se mide qué tan dispersos están los datos alrededor de ese punto central, en otras palabras, que tan cerca o que tan lejos pueden estar los datos con relación al punto central. Y eso es lo que hacen las medidas de dispersión, que indican cuanto se desvian las observaciones alrededor de ese punto central.

La dispersión se relaciona con la concentración (mayor o menor) de los datos en torno a un valor central, generalmente la media.

Construyamos esas medidas de dispersión, para ello utilizaremos, primeramente los datos discretos que hemos estado utilizando en secciones anteriores:

12	15	14	15	16
18	19	14	15	17
15	17	18	16	19
16	17	15	15	17
16	18	17	19	17
23	16	17	18	19

Por simple observación de estos datos podemos obtener el rango en el cual se encuentran los datos mediante la diferencia del mayor y el menor, de esta manera se obtiene: 23 -12 = 11, lo que indica que los datos de la muestra se mueven en un rango de 11 unidades entre el máximo y el mínimo.

Construyamos ahora esta tabla de manera ordenada (sin agrupar) y a cada valor calculemos las distancias de cada dato en relación a la media:

Posición	X_i	Media	x_i - Media
1	12	16.6666667	-4.66666667
2	14	16.6666667	-2.66666667
3	14	16.6666667	-2.66666667
4	15	16.6666667	-1.66666667
5	15	16.6666667	-1.66666667
6	15	16.6666667	-1.66666667
7	15	16.6666667	-1.66666667
8	15	16.6666667	-1.66666667
9	15	16.6666667	-1.66666667
10	16	16.6666667	-0.66666667
11	16	16.6666667	-0.66666667
12	16	16.6666667	-0.66666667
13	16	16.6666667	-0.66666667
14	16	16.6666667	-0.66666667
15	17	16.6666667	0.33333333
16	17	16.6666667	0.33333333
17	17	16.6666667	0.33333333
18	17	16.6666667	0.33333333
19	17	16.6666667	0.33333333
20	17	16.6666667	0.33333333
21	17	16.6666667	0.33333333
22	18	16.6666667	1.33333333
23	18	16.6666667	1.33333333
24	18	16.6666667	1.33333333
25	18	16.6666667	1.33333333
26	19	16.6666667	2.33333333
27	19	16.6666667	2.33333333
28	19	16.6666667	2.33333333
29	19	16.6666667	2.33333333
30	23	16.6666667	6.33333333
			0

En esta tabla, la columna de diferencia indica la distancia a la media de cada dato, es decir es una medida de la disperción del mismo tomando como referencia a la media. La dispersión máxima de los datos se da en el rango, el cual es la diferencia entre el valor máximo y el valor mínimo.

Rango = 23 – 12 = 11

Retomando la diferencia de cada valor con respecto a la media, no podemos obtener un valor promedio del conjunto de desviaciones, ya que al encontrarse al media de los datos como punto central el 50% de los mismos tendrán valores negativos que se equilibrarán con el 50% de los mismos con valores positivos, por lo que una sumatoria de ellos arrojaría siempre cero, para ello recurriremos al valor absoluto de la diferencia calculada:

Posición	xi	Media	xi - Media	\| xi - Media \|
1	12	16.6666667	-4.666666667	4.66666667
2	14	16.6666667	-2.666666667	2.66666667
3	14	16.6666667	-2.666666667	2.66666667
4	15	16.6666667	-1.666666667	1.66666667
5	15	16.6666667	-1.666666667	1.66666667
6	15	16.6666667	-1.666666667	1.66666667
7	15	16.6666667	-1.666666667	1.66666667
8	15	16.6666667	-1.666666667	1.66666667
9	15	16.6666667	-1.666666667	1.66666667
10	16	16.6666667	-0.666666667	0.66666667
11	16	16.6666667	-0.666666667	0.66666667
12	16	16.6666667	-0.666666667	0.66666667
13	16	16.6666667	-0.666666667	0.66666667
14	16	16.6666667	-0.666666667	0.66666667
15	17	16.6666667	0.333333333	0.33333333
16	17	16.6666667	0.333333333	0.33333333
17	17	16.6666667	0.333333333	0.33333333
18	17	16.6666667	0.333333333	0.33333333
19	17	16.6666667	0.333333333	0.33333333
20	17	16.6666667	0.333333333	0.33333333
21	17	16.6666667	0.333333333	0.33333333
22	18	16.6666667	1.333333333	1.33333333
23	18	16.6666667	1.333333333	1.33333333
24	18	16.6666667	1.333333333	1.33333333
25	18	16.6666667	1.333333333	1.33333333
26	19	16.6666667	2.333333333	2.33333333
27	19	16.6666667	2.333333333	2.33333333
28	19	16.6666667	2.333333333	2.33333333
29	19	16.6666667	2.333333333	2.33333333
30	23	16.6666667	6.333333333	6.33333333
			- 0	46.6666667

Al obtener la suma de todas la diferencias con el valor absoluto de las mismas (hay que tomar en cuentan que el valor “negativo”, no implica en si mismo una negatividad, ya que hay una diferencia negativa de un dato con respecto a la media lo que significa que ese valor tomado se encuentra debajo de la media) se obtiene un total de 46.6667, que al dividir entre 30 (n) se obtiene un “promedio” de diferencias (desviaciones) a esta medida, se de denomina Desviación Media Absoluta (DMA):

46.6666667

DMA = ---------------- = 1.55555556

Lo que indica que los datos se “dispersan en promedio” 1.555 unidades. Busquemos ahora la eliminación matemática del signo (multiplicando la cantidad por si misma) y construyamos la siguiente tabla:

Posición	x_i	Media	x_i - Media	\| x_i - Media \|	(x_i - Media)²
1	12	16.6666667	-4.666666667	4.666666667	21.7777778
2	14	16.6666667	-2.666666667	2.666666667	7.11111111
3	14	16.6666667	-2.666666667	2.666666667	7.11111111
4	15	16.6666667	-1.666666667	1.666666667	2.77777778
5	15	16.6666667	-1.666666667	1.666666667	2.77777778
6	15	16.6666667	-1.666666667	1.666666667	2.77777778
7	15	16.6666667	-1.666666667	1.666666667	2.77777778
8	15	16.6666667	-1.666666667	1.666666667	2.77777778
9	15	16.6666667	-1.666666667	1.666666667	2.77777778
10	16	16.6666667	-0.666666667	0.666666667	0.44444444
11	16	16.6666667	-0.666666667	0.666666667	0.44444444
12	16	16.6666667	-0.666666667	0.666666667	0.44444444
13	16	16.6666667	-0.666666667	0.666666667	0.44444444
14	16	16.6666667	-0.666666667	0.666666667	0.44444444
15	17	16.6666667	0.333333333	0.333333333	0.11111111
16	17	16.6666667	0.333333333	0.333333333	0.11111111
17	17	16.6666667	0.333333333	0.333333333	0.11111111
18	17	16.6666667	0.333333333	0.333333333	0.11111111
19	17	16.6666667	0.333333333	0.333333333	0.11111111
20	17	16.6666667	0.333333333	0.333333333	0.11111111
21	17	16.6666667	0.333333333	0.333333333	0.11111111
22	18	16.6666667	1.333333333	1.333333333	1.77777778
23	18	16.6666667	1.333333333	1.333333333	1.77777778
24	18	16.6666667	1.333333333	1.333333333	1.77777778
25	18	16.6666667	1.333333333	1.333333333	1.77777778
26	19	16.6666667	2.333333333	2.333333333	5.44444444
27	19	16.6666667	2.333333333	2.333333333	5.44444444
28	19	16.6666667	2.333333333	2.333333333	5.44444444
29	19	16.6666667	2.333333333	2.333333333	5.44444444
30	23	16.6666667	6.333333333	6.333333333	40.1111111
			- 0	46.66666667	124.666667

En la última columna se refleja la cantidad obtenida de elevar al cuadrado la diferencia entre los datos y la media, la suma de todos ellos entre la cantidad de datos se conoce como varianza. Por ello podemos definir a la varianza como el promedio de las desviaciones respecto a su media elevadas al cuadrado:

Para la población, el valor estaría dado por:

Sin embargo existe un cambio en cuanto al cálculo de la varianza para la muestra:

Supongamos en nuestro ejercicio que los 30 datos son la población, entonces la varianza sería:

124.6666667

Var = -------------------- = 4.1555556

Si calculamos la varianzas suponiendo que es una muestra, el resultado sería:

124.6666667

Var = -------------------- = 4.298850575

La variación es pequeña. Sin embargo a pesar del uso común de la varianza, presenta problemas: es un número muy grande con respecto a las observaciones (varias veces mayor que incluso el límite superior del rango, por ello es difícil de manejar). El otro problema es que debido a que las diferencias de las observaciones es elevada al cuadrado, la varianza siempre se expresa en términos de los datos originales elevados al cuadrado. Por ejemplo si estamos hablando de edades, la varianza tendría un valor de años al cuadrado (esto no tiene sentido). Para solucionar estos inconvenientes, se halla a partir de la varianza, la desviación estándar, sacando la raíz cuadrada de la primera:

Para la población:

Desviación Estándar = 2.03851798

Para la muestra:

Desviación Estándar = 2.073366966

El concepto de desviación estándar es muy importante, por ejemplo en las finanzas, se utiliza la desviación estándar como medida de riesgo relacionada con varias oportunidades de inversión. Mediante el uso de la desviación estándar para medir la variabilidad de las tasas de rendimiento ofrecidas por diferentes inversiones, el analista financiero puede medir el nivel de riesgo que tiene cada activo financiero. Generalmente, mientras mayor sea la desviación estándar de la tasa de rendimiento de una inversión en particular, mayor será el grado de riesgo.

Como parte de tu participación en este proceso de aprendizaje, se te sugiere que modifiques las formulas y realices los cálculos correspondientes a los datos discretos agrupados, los datos continuos no agrupados y agrupados, y analices el comportamiento de las medidas que se han expuesto en esta sección.

Ahora como elemento de aprendizaje, calculemos las varianzas y desviaciones estándars de los datos que se suministraron en los ejercicios de medidas de tendencia central completando el análisis de las mismas con las respuestas que serán apoyadas con las medidas de variación.