En las secciones anteriores (ordenamiento, agrupacion de datos y medidas de tendencia central) se ha visto que es de utilidad ubicar el centro del conjunto de datos. Pero identificar una de las medidas de tendencia central rara vez es sufiente para describir de manera más completa a los datos. Una descripción más completa del conjunto de datos, puede obtenerse si se mide qué tan dispersos están los datos alrededor de ese punto central, en otras palabras, que tan cerca o que tan lejos pueden estar los datos con relación al punto central. Y eso es lo que hacen las medidas de dispersión, que indican cuanto se desvian las observaciones alrededor de ese punto central.
La dispersión se relaciona con la concentración (mayor o menor) de los datos en torno a un valor central, generalmente la media.
Construyamos esas medidas de dispersión, para ello utilizaremos, primeramente los datos discretos que hemos estado utilizando en secciones anteriores:
12 |
15 |
14 |
15 |
16 |
18 |
19 |
14 |
15 |
17 |
15 |
17 |
18 |
16 |
19 |
16 |
17 |
15 |
15 |
17 |
16 |
18 |
17 |
19 |
17 |
23 |
16 |
17 |
18 |
19 |
Por simple observación de estos datos podemos obtener el rango en el cual se encuentran los datos mediante la diferencia del mayor y el menor, de esta manera se obtiene: 23 -12 = 11, lo que indica que los datos de la muestra se mueven en un rango de 11 unidades entre el máximo y el mínimo.
Construyamos ahora esta tabla de manera ordenada (sin agrupar) y a cada valor calculemos las distancias de cada dato en relación a la media:
Posición |
Xi |
Media |
xi - Media |
1 |
12 |
16.6666667 |
-4.66666667 |
2 |
14 |
16.6666667 |
-2.66666667 |
3 |
14 |
16.6666667 |
-2.66666667 |
4 |
15 |
16.6666667 |
-1.66666667 |
5 |
15 |
16.6666667 |
-1.66666667 |
6 |
15 |
16.6666667 |
-1.66666667 |
7 |
15 |
16.6666667 |
-1.66666667 |
8 |
15 |
16.6666667 |
-1.66666667 |
9 |
15 |
16.6666667 |
-1.66666667 |
10 |
16 |
16.6666667 |
-0.66666667 |
11 |
16 |
16.6666667 |
-0.66666667 |
12 |
16 |
16.6666667 |
-0.66666667 |
13 |
16 |
16.6666667 |
-0.66666667 |
14 |
16 |
16.6666667 |
-0.66666667 |
15 |
17 |
16.6666667 |
0.33333333 |
16 |
17 |
16.6666667 |
0.33333333 |
17 |
17 |
16.6666667 |
0.33333333 |
18 |
17 |
16.6666667 |
0.33333333 |
19 |
17 |
16.6666667 |
0.33333333 |
20 |
17 |
16.6666667 |
0.33333333 |
21 |
17 |
16.6666667 |
0.33333333 |
22 |
18 |
16.6666667 |
1.33333333 |
23 |
18 |
16.6666667 |
1.33333333 |
24 |
18 |
16.6666667 |
1.33333333 |
25 |
18 |
16.6666667 |
1.33333333 |
26 |
19 |
16.6666667 |
2.33333333 |
27 |
19 |
16.6666667 |
2.33333333 |
28 |
19 |
16.6666667 |
2.33333333 |
29 |
19 |
16.6666667 |
2.33333333 |
30 |
23 |
16.6666667 |
6.33333333 |
|
0 |
En esta tabla, la columna de diferencia indica la distancia a la media de cada dato, es decir es una medida de la disperción del mismo tomando como referencia a la media. La dispersión máxima de los datos se da en el rango, el cual es la diferencia entre el valor máximo y el valor mínimo.
Rango = 23 – 12 = 11
Retomando la diferencia de cada valor con respecto a la media, no podemos obtener un valor promedio del conjunto de desviaciones, ya que al encontrarse al media de los datos como punto central el 50% de los mismos tendrán valores negativos que se equilibrarán con el 50% de los mismos con valores positivos, por lo que una sumatoria de ellos arrojaría siempre cero, para ello recurriremos al valor absoluto de la diferencia calculada:
Posición |
xi |
Media |
xi - Media |
| xi - Media | |
1 |
12 |
16.6666667 |
-4.666666667 |
4.66666667 |
2 |
14 |
16.6666667 |
-2.666666667 |
2.66666667 |
3 |
14 |
16.6666667 |
-2.666666667 |
2.66666667 |
4 |
15 |
16.6666667 |
-1.666666667 |
1.66666667 |
5 |
15 |
16.6666667 |
-1.666666667 |
1.66666667 |
6 |
15 |
16.6666667 |
-1.666666667 |
1.66666667 |
7 |
15 |
16.6666667 |
-1.666666667 |
1.66666667 |
8 |
15 |
16.6666667 |
-1.666666667 |
1.66666667 |
9 |
15 |
16.6666667 |
-1.666666667 |
1.66666667 |
10 |
16 |
16.6666667 |
-0.666666667 |
0.66666667 |
11 |
16 |
16.6666667 |
-0.666666667 |
0.66666667 |
12 |
16 |
16.6666667 |
-0.666666667 |
0.66666667 |
13 |
16 |
16.6666667 |
-0.666666667 |
0.66666667 |
14 |
16 |
16.6666667 |
-0.666666667 |
0.66666667 |
15 |
17 |
16.6666667 |
0.333333333 |
0.33333333 |
16 |
17 |
16.6666667 |
0.333333333 |
0.33333333 |
17 |
17 |
16.6666667 |
0.333333333 |
0.33333333 |
18 |
17 |
16.6666667 |
0.333333333 |
0.33333333 |
19 |
17 |
16.6666667 |
0.333333333 |
0.33333333 |
20 |
17 |
16.6666667 |
0.333333333 |
0.33333333 |
21 |
17 |
16.6666667 |
0.333333333 |
0.33333333 |
22 |
18 |
16.6666667 |
1.333333333 |
1.33333333 |
23 |
18 |
16.6666667 |
1.333333333 |
1.33333333 |
24 |
18 |
16.6666667 |
1.333333333 |
1.33333333 |
25 |
18 |
16.6666667 |
1.333333333 |
1.33333333 |
26 |
19 |
16.6666667 |
2.333333333 |
2.33333333 |
27 |
19 |
16.6666667 |
2.333333333 |
2.33333333 |
28 |
19 |
16.6666667 |
2.333333333 |
2.33333333 |
29 |
19 |
16.6666667 |
2.333333333 |
2.33333333 |
30 |
23 |
16.6666667 |
6.333333333 |
6.33333333 |
- 0 |
Al obtener la suma de todas la diferencias con el valor absoluto de las mismas (hay que tomar en cuentan que el valor “negativo”, no implica en si mismo una negatividad, ya que hay una diferencia negativa de un dato con respecto a la media lo que significa que ese valor tomado se encuentra debajo de la media) se obtiene un total de 46.6667, que al dividir entre 30 (n) se obtiene un “promedio” de diferencias (desviaciones) a esta medida, se de denomina Desviación Media Absoluta (DMA):
46.6666667
DMA = ---------------- = 1.55555556
30
Lo que indica que los datos se “dispersan en promedio” 1.555 unidades. Busquemos ahora la eliminación matemática del signo (multiplicando la cantidad por si misma) y construyamos la siguiente tabla:
Posición |
xi |
Media |
xi - Media |
| xi - Media | |
(xi - Media)2 |
1 |
12 |
16.6666667 |
-4.666666667 |
4.666666667 |
21.7777778 |
2 |
14 |
16.6666667 |
-2.666666667 |
2.666666667 |
7.11111111 |
3 |
14 |
16.6666667 |
-2.666666667 |
2.666666667 |
7.11111111 |
4 |
15 |
16.6666667 |
-1.666666667 |
1.666666667 |
2.77777778 |
5 |
15 |
16.6666667 |
-1.666666667 |
1.666666667 |
2.77777778 |
6 |
15 |
16.6666667 |
-1.666666667 |
1.666666667 |
2.77777778 |
7 |
15 |
16.6666667 |
-1.666666667 |
1.666666667 |
2.77777778 |
8 |
15 |
16.6666667 |
-1.666666667 |
1.666666667 |
2.77777778 |
9 |
15 |
16.6666667 |
-1.666666667 |
1.666666667 |
2.77777778 |
10 |
16 |
16.6666667 |
-0.666666667 |
0.666666667 |
0.44444444 |
11 |
16 |
16.6666667 |
-0.666666667 |
0.666666667 |
0.44444444 |
12 |
16 |
16.6666667 |
-0.666666667 |
0.666666667 |
0.44444444 |
13 |
16 |
16.6666667 |
-0.666666667 |
0.666666667 |
0.44444444 |
14 |
16 |
16.6666667 |
-0.666666667 |
0.666666667 |
0.44444444 |
15 |
17 |
16.6666667 |
0.333333333 |
0.333333333 |
0.11111111 |
16 |
17 |
16.6666667 |
0.333333333 |
0.333333333 |
0.11111111 |
17 |
17 |
16.6666667 |
0.333333333 |
0.333333333 |
0.11111111 |
18 |
17 |
16.6666667 |
0.333333333 |
0.333333333 |
0.11111111 |
19 |
17 |
16.6666667 |
0.333333333 |
0.333333333 |
0.11111111 |
20 |
17 |
16.6666667 |
0.333333333 |
0.333333333 |
0.11111111 |
21 |
17 |
16.6666667 |
0.333333333 |
0.333333333 |
0.11111111 |
22 |
18 |
16.6666667 |
1.333333333 |
1.333333333 |
1.77777778 |
23 |
18 |
16.6666667 |
1.333333333 |
1.333333333 |
1.77777778 |
24 |
18 |
16.6666667 |
1.333333333 |
1.333333333 |
1.77777778 |
25 |
18 |
16.6666667 |
1.333333333 |
1.333333333 |
1.77777778 |
26 |
19 |
16.6666667 |
2.333333333 |
2.333333333 |
5.44444444 |
27 |
19 |
16.6666667 |
2.333333333 |
2.333333333 |
5.44444444 |
28 |
19 |
16.6666667 |
2.333333333 |
2.333333333 |
5.44444444 |
29 |
19 |
16.6666667 |
2.333333333 |
2.333333333 |
5.44444444 |
30 |
23 |
16.6666667 |
6.333333333 |
6.333333333 |
40.1111111 |
|
- 0 |
46.66666667 |
124.666667 |
En la última columna se refleja la cantidad obtenida de elevar al cuadrado la diferencia entre los datos y la media, la suma de todos ellos entre la cantidad de datos se conoce como varianza. Por ello podemos definir a la varianza como el promedio de las desviaciones respecto a su media elevadas al cuadrado:
Para la población, el valor estaría dado por:
Sin embargo existe un cambio en cuanto al cálculo de la varianza para la muestra:
Supongamos en nuestro ejercicio que los 30 datos son la población, entonces la varianza sería:
124.6666667
Var = -------------------- = 4.1555556
30
Si calculamos la varianzas suponiendo que es una muestra, el resultado sería:
124.6666667
Var = -------------------- = 4.298850575
29
La variación es pequeña. Sin embargo a pesar del uso común de la varianza, presenta problemas: es un número muy grande con respecto a las observaciones (varias veces mayor que incluso el límite superior del rango, por ello es difícil de manejar). El otro problema es que debido a que las diferencias de las observaciones es elevada al cuadrado, la varianza siempre se expresa en términos de los datos originales elevados al cuadrado. Por ejemplo si estamos hablando de edades, la varianza tendría un valor de años al cuadrado (esto no tiene sentido). Para solucionar estos inconvenientes, se halla a partir de la varianza, la desviación estándar, sacando la raíz cuadrada de la primera:
Para la población:
Desviación Estándar = 2.03851798
Para la muestra:
Desviación Estándar = 2.073366966
El concepto de desviación estándar es muy importante, por ejemplo en las finanzas, se utiliza la desviación estándar como medida de riesgo relacionada con varias oportunidades de inversión. Mediante el uso de la desviación estándar para medir la variabilidad de las tasas de rendimiento ofrecidas por diferentes inversiones, el analista financiero puede medir el nivel de riesgo que tiene cada activo financiero. Generalmente, mientras mayor sea la desviación estándar de la tasa de rendimiento de una inversión en particular, mayor será el grado de riesgo.
Como parte de tu participación en este proceso de aprendizaje, se te sugiere que modifiques las formulas y realices los cálculos correspondientes a los datos discretos agrupados, los datos continuos no agrupados y agrupados, y analices el comportamiento de las medidas que se han expuesto en esta sección.
Ahora como elemento de aprendizaje, calculemos las varianzas y desviaciones estándars de los datos que se suministraron en los ejercicios de medidas de tendencia central completando el análisis de las mismas con las respuestas que serán apoyadas con las medidas de variación.
Esta página web ha sido creada con Jimdo. ¡Regístrate ahora gratis en https://es.jimdo.com!