Medidas de Dispersión


En las secciones anteriores (ordenamiento, agrupacion de datos y medidas de tendencia central) se ha visto que es de utilidad ubicar el centro del conjunto de datos. Pero identificar una de las medidas de tendencia central rara vez es sufiente para describir de manera más completa a los datos. Una descripción más completa del conjunto de datos, puede obtenerse si se mide qué tan dispersos están los datos alrededor de ese punto central, en otras palabras, que  tan cerca o que tan lejos pueden estar los datos con relación al punto central. Y eso es lo que hacen las medidas de dispersión, que indican cuanto se desvian las observaciones alrededor de ese  punto central.

La dispersión se relaciona con la concentración (mayor o menor) de los datos en torno a un valor central, generalmente la media.

Construyamos esas medidas de dispersión, para ello utilizaremos, primeramente los datos discretos que hemos estado utilizando en secciones anteriores:

12

15

14

15

16

18

19

14

15

17

15

17

18

16

19

16

17

15

15

17

16

18

17

19

17

23

16

17

18

19

Por simple observación de estos datos podemos obtener el rango en el cual se encuentran los datos mediante la diferencia del mayor y el menor, de esta manera se obtiene: 23 -12 = 11, lo que indica que los datos de la muestra se mueven en un rango de 11 unidades entre el máximo y el mínimo.

Construyamos ahora esta tabla de manera ordenada (sin agrupar) y a cada valor calculemos las distancias de cada dato en relación a la media:

Posición

Xi

Media

xi - Media

1

12

16.6666667

-4.66666667

2

14

16.6666667

-2.66666667

3

14

16.6666667

-2.66666667

4

15

16.6666667

-1.66666667

5

15

16.6666667

-1.66666667

6

15

16.6666667

-1.66666667

7

15

16.6666667

-1.66666667

8

15

16.6666667

-1.66666667

9

15

16.6666667

-1.66666667

10

16

16.6666667

-0.66666667

11

16

16.6666667

-0.66666667

12

16

16.6666667

-0.66666667

13

16

16.6666667

-0.66666667

14

16

16.6666667

-0.66666667

15

17

16.6666667

0.33333333

16

17

16.6666667

0.33333333

17

17

16.6666667

0.33333333

18

17

16.6666667

0.33333333

19

17

16.6666667

0.33333333

20

17

16.6666667

0.33333333

21

17

16.6666667

0.33333333

22

18

16.6666667

1.33333333

23

18

16.6666667

1.33333333

24

18

16.6666667

1.33333333

25

18

16.6666667

1.33333333

26

19

16.6666667

2.33333333

27

19

16.6666667

2.33333333

28

19

16.6666667

2.33333333

29

19

16.6666667

2.33333333

30

23

16.6666667

6.33333333

 

0

En esta tabla, la columna de diferencia indica la distancia a la media de cada dato, es decir es una medida de la disperción del mismo tomando como referencia a la media. La dispersión máxima de los datos se da en el rango, el cual es la diferencia entre el valor máximo y el valor mínimo.

Rango = 23 – 12 = 11

Retomando la diferencia de cada valor con respecto a la media, no podemos obtener un valor promedio del conjunto de desviaciones, ya que al encontrarse al media de los datos como punto central el 50% de los mismos tendrán valores negativos que se equilibrarán con el 50% de los mismos con valores positivos, por lo que una sumatoria de ellos arrojaría siempre cero, para ello recurriremos al valor absoluto de la diferencia calculada:

Posición

xi

Media

xi - Media

| xi - Media |

1

12

16.6666667

-4.666666667

4.66666667

2

14

16.6666667

-2.666666667

2.66666667

3

14

16.6666667

-2.666666667

2.66666667

4

15

16.6666667

-1.666666667

1.66666667

5

15

16.6666667

-1.666666667

1.66666667

6

15

16.6666667

-1.666666667

1.66666667

7

15

16.6666667

-1.666666667

1.66666667

8

15

16.6666667

-1.666666667

1.66666667

9

15

16.6666667

-1.666666667

1.66666667

10

16

16.6666667

-0.666666667

0.66666667

11

16

16.6666667

-0.666666667

0.66666667

12

16

16.6666667

-0.666666667

0.66666667

13

16

16.6666667

-0.666666667

0.66666667

14

16

16.6666667

-0.666666667

0.66666667

15

17

16.6666667

0.333333333

0.33333333

16

17

16.6666667

0.333333333

0.33333333

17

17

16.6666667

0.333333333

0.33333333

18

17

16.6666667

0.333333333

0.33333333

19

17

16.6666667

0.333333333

0.33333333

20

17

16.6666667

0.333333333

0.33333333

21

17

16.6666667

0.333333333

0.33333333

22

18

16.6666667

1.333333333

1.33333333

23

18

16.6666667

1.333333333

1.33333333

24

18

16.6666667

1.333333333

1.33333333

25

18

16.6666667

1.333333333

1.33333333

26

19

16.6666667

2.333333333

2.33333333

27

19

16.6666667

2.333333333

2.33333333

28

19

16.6666667

2.333333333

2.33333333

29

19

16.6666667

2.333333333

2.33333333

30

23

16.6666667

6.333333333

6.33333333

 

-                       0

46.6666667

Al obtener la suma de todas la diferencias con el valor absoluto de las mismas (hay que tomar en cuentan que el valor “negativo”, no implica en si mismo una negatividad, ya que hay una diferencia negativa de un dato con respecto a la media lo que significa que ese valor tomado se encuentra debajo de la media) se obtiene un total de 46.6667, que al dividir entre 30 (n) se obtiene un “promedio” de diferencias (desviaciones) a esta medida, se de denomina Desviación Media Absoluta (DMA):

 

 

 

                46.6666667

DMA =  ---------------- = 1.55555556

                      30

Lo que indica que los datos se “dispersan en promedio” 1.555 unidades. Busquemos ahora la eliminación matemática del signo (multiplicando la cantidad por si misma) y construyamos la siguiente tabla:

Posición

xi

Media

xi - Media

| xi - Media |

(xi - Media)2

1

12

16.6666667

-4.666666667

4.666666667

21.7777778

2

14

16.6666667

-2.666666667

2.666666667

7.11111111

3

14

16.6666667

-2.666666667

2.666666667

7.11111111

4

15

16.6666667

-1.666666667

1.666666667

2.77777778

5

15

16.6666667

-1.666666667

1.666666667

2.77777778

6

15

16.6666667

-1.666666667

1.666666667

2.77777778

7

15

16.6666667

-1.666666667

1.666666667

2.77777778

8

15

16.6666667

-1.666666667

1.666666667

2.77777778

9

15

16.6666667

-1.666666667

1.666666667

2.77777778

10

16

16.6666667

-0.666666667

0.666666667

0.44444444

11

16

16.6666667

-0.666666667

0.666666667

0.44444444

12

16

16.6666667

-0.666666667

0.666666667

0.44444444

13

16

16.6666667

-0.666666667

0.666666667

0.44444444

14

16

16.6666667

-0.666666667

0.666666667

0.44444444

15

17

16.6666667

0.333333333

0.333333333

0.11111111

16

17

16.6666667

0.333333333

0.333333333

0.11111111

17

17

16.6666667

0.333333333

0.333333333

0.11111111

18

17

16.6666667

0.333333333

0.333333333

0.11111111

19

17

16.6666667

0.333333333

0.333333333

0.11111111

20

17

16.6666667

0.333333333

0.333333333

0.11111111

21

17

16.6666667

0.333333333

0.333333333

0.11111111

22

18

16.6666667

1.333333333

1.333333333

1.77777778

23

18

16.6666667

1.333333333

1.333333333

1.77777778

24

18

16.6666667

1.333333333

1.333333333

1.77777778

25

18

16.6666667

1.333333333

1.333333333

1.77777778

26

19

16.6666667

2.333333333

2.333333333

5.44444444

27

19

16.6666667

2.333333333

2.333333333

5.44444444

28

19

16.6666667

2.333333333

2.333333333

5.44444444

29

19

16.6666667

2.333333333

2.333333333

5.44444444

30

23

16.6666667

6.333333333

6.333333333

40.1111111

  

-                       0

46.66666667

124.666667

En la última columna se refleja la cantidad obtenida de elevar al cuadrado la diferencia entre los datos y la media, la suma de todos ellos entre la cantidad de datos se conoce como varianza. Por ello podemos definir a la varianza como el promedio de las desviaciones respecto a su media elevadas al cuadrado:

Para la población, el valor estaría dado por:

 

Sin embargo existe un cambio en cuanto al cálculo de la varianza para la muestra:

 

Supongamos en nuestro ejercicio que los 30 datos son la población, entonces la varianza sería:

            124.6666667

Var = -------------------- = 4.1555556

                     30

Si calculamos la varianzas suponiendo que es una muestra, el resultado sería:

            124.6666667

Var = -------------------- = 4.298850575

                     29

La variación es pequeña. Sin embargo a pesar del uso común de la varianza, presenta problemas: es un número muy grande con respecto a las observaciones (varias veces mayor que incluso el límite superior del rango, por ello es difícil de manejar). El otro problema es que debido a que las diferencias de las observaciones es elevada al cuadrado, la varianza siempre se expresa en términos de los datos originales elevados al cuadrado. Por ejemplo si estamos hablando de edades, la varianza tendría un valor de años al cuadrado (esto no tiene sentido). Para solucionar estos inconvenientes, se halla a partir de la varianza, la desviación estándar, sacando la raíz cuadrada de la primera:

Para la población:

Desviación Estándar = 2.03851798

Para la muestra:

Desviación Estándar = 2.073366966

El concepto de desviación estándar es muy importante, por ejemplo en las finanzas, se utiliza la desviación estándar como medida de riesgo relacionada con varias oportunidades de inversión. Mediante el uso de la desviación estándar para medir la variabilidad de las tasas de rendimiento ofrecidas por diferentes inversiones, el analista financiero puede medir el nivel de riesgo que tiene cada activo financiero. Generalmente, mientras mayor sea la desviación estándar de la tasa de rendimiento de una inversión en particular, mayor será el grado de riesgo.

Como parte de tu participación en este proceso de aprendizaje, se te sugiere que modifiques las formulas y realices los cálculos correspondientes a los datos discretos agrupados, los datos continuos no agrupados y agrupados, y analices el comportamiento de las medidas que se han expuesto en esta sección.

Ahora como elemento de aprendizaje, calculemos las varianzas y desviaciones estándars de los datos que se suministraron en los ejercicios de medidas de tendencia central completando el análisis de las mismas con las respuestas que serán apoyadas con las medidas de variación.