Estadística descriptiva, gráficos y ejemplos.
Sabemos que las matemáticas no son del agrado de varias personas, pero son necesarias para modelar muchas de las actividades de la vida diaria, dentro del mundo de las matemáticas existe la estadística, la cual es de gran ayuda para analizar de forma más sencilla problemas que tienen poca, o mucha información, en este blog les explicaré de forma sencilla los conceptos básicos de la estadística descriptiva, como lo son:
- Media
- Mediana
- Moda
- Varianza
- Desviación estándar
- Valores atípicos
- Curtosis
- Asimetría
Además mostraré algunos gráficos en los cuales es sencillo identificar esta información en un grupo de datos (Histograma, gráfico de barras, diagrama de cajas y bigotes).
Ya conscientes del contenido de este blog ¡Comencemos!:
Media: Al analizar un fenómeno se tienen una o más variables para describir, entonces antes de aplicar cualquier método de la estadística descriptiva se debe seleccionar una de estas, sabiendo esto, la media se puede definir como "La suma de todos los valores obtenidos de una variable, dividido por el número total de sujetos en el muestreo", en términos más sencillos, es el valor aproximado que podemos esperar del fenómeno observado, por ejemplo: Supongamos que en una escuela hay 10 cursos distintos, y que en cada curso están las siguientes cantidades de estudiantes respectivamente, 20, 23, 25, 18, 15, 21, 14, 17, 16, 20. ¿Cuál sería el número de estudiantes que esperaríamos encontrar en un curso de esta escuela?
Así podemos concluir que si vamos a alguno de los cursos en esta escuela es posible encontrar alrededor de 18.9 estudiantes, pero, te hago una pregunta ¿Es posible encontrar 18.9 estudiantes? ¿Verdad que no es posible hallar 18 estudiantes y una parte de una persona (0.9) estudiando en un aula? Esto nos lleva al siguiente punto; algunos casos es mejor no analizarlos solo con la media, sino con la mediana y la moda, veamos el mismo caso con estos dos métodos.
Mediana: Es posible definirla como "El dato que divide exactamente a la mitad a todas las observaciones, cuando estas están organizadas de menor a mayor, separando a los datos en 2 conjuntos, donde cada uno tiene exactamente el 50% de las observaciones". Esta medida también se puede interpretar como un valor esperado de un fenómeno, la mediana tiene 2 casos en los cuales se sigue una metodología similar:
1. Cuando el número de datos por analizar es par: En este caso se deben organizar los datos de menor a mayor, buscar los 2 datos que se encuentran en el medio de la muestra y obtener su promedio; aprovechemos el ejemplo anterior de los cursos en una escuela para hallar la mediana, dado que hay 10 datos (número par de datos), se siguen estos pasos:
a. Organizamos los datos de menor a mayor: 14, 15, 16, 17, 18, 20, 20, 21, 23, 25. A estos datos se le pueden atribuir posiciones según el orden en el que se encuentran, en este caso hay 10 datos, entonces las posiciones serían: 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, respectivamente.
b. Buscamos los 2 datos que se encuentran en el medio de las observaciones: Al tener 10 datos sabemos que el punto que divide a los datos por las mitad está entre las observaciones 5 y 6, como se puede apreciar, los números 18 y 20 se encuentran en estas posiciones respectivamente.
c. Se obtiene la media de estas 2 observaciones: Implementando la misma metodología que se explica en la definición de "Media" tenemos que:
La media entre 18 y 20 está dada por
= 19, así el valor esperado de estudiantes en un curso de esta escuela es de 19. Ya tiene más sentido, ¿Verdad?
2. Cuando el número de datos por analizar es impar: Se sigue la misma metodología que en el caso del número de datos pares, pero aquí no será necesario buscar 2 datos que separen a la muestra, dado que aquí solo 1 dato divide a todas las observaciones en 2 grupos con el 20% de la información. Ejemplo: Tenemos 7 grupos de vendedores y estos reportan las siguientes ventas de empanadas: 200, 157, 169, 234, 187, 251, 193 ¿Alrededor de cuantas empanadas se espera que hayan vendido los grupos? Siguiendo la metodología anterior:
a. Organizamos los datos de menor a mayor: 157, 169, 187, 193, 200, 234, 251. También se le van a atribuir posiciones a los datos dependiendo de su orden, en este caso hay 7 datos, así se tiene que el orden será, 1, 2, 3, 4, 5, 6, 7, y el dato que divide por la mitad a las observaciones es el que se encuentra en la posición 4, dividiendo a los datos en 2 grupos de 3 observaciones cada uno.
b. Buscamos el dato que divide por la mitad a las observaciones: En este caso no es necesario obtener la media, solo buscamos el dato en la posición 4, el cual es 193, por lo tanto se puede concluir que se espera que cada grupo venda alrededor de 193 empanadas.
NOTA: La principal diferencia entre la media y la mediana es que la media es altamente sensible a los valores atípicos (serán explicados más adelante), y la mediana no se ve afectada notablemente por estos, así que es útil comparar la media y la mediana para hacerse una idea de si existen datos atípicos entre las observaciones (Repito, solo sirve para hacerse una idea, el método para comprobar la existencia de los datos será explicado más adelante).
Moda: La moda puede ser definida como "El valor que más se repite dentro del conjunto de datos", y normalmente es implementado para analizar variables del tipo categórico (nombres, direcciones, meses, marcas, etcétera), por ejemplo: Se tienen 6 personas y se les pregunta la marca de teléfono que prefieren, sus respuestas fueron: Huawei, Samsung, Huawei, iPhone, Samsung, Huawei, tras hacer el conteo se tiene que para cada una de las marcas mencionadas el número de repeticiones es:
iPhone: 1, Samsung: 2, Huawei: 3, así es posible concluir que la marca de teléfono más popular entre el grupo de 6 personas es Huawei, con 3 personas que la prefieren.
Varianza: Este es uno de los conceptos más complejos de la estadística descriptiva básica, dado que la varianza es implementada para hallar la desviación estándar, y es poco común que se use para otras cosas en casos básicos de análisis estadístico descriptivo, su definición formal sería "la media de los cuadrados de las diferencias entre cada valor de la variable en estudio y la media de esa distribución de datos de la variable ", algo confuso ¿No? Tratando de simplificar un poco el proceso para obtener la varianza, sería la resta que hay entre la media y cada una de las observaciones, elevar el resultado de cada una de las restas al cuadrado, sumar esos resultados, y posteriormente dividir todo entre el número de observaciones, a continuación una fórmula para entenderla más fácilmente:
Donde la "x" que tiene una barra encima representa a la media, y la "x" sola a cada una de las observaciones, ahora una ejemplo: Obtener la varianza del siguiente conjunto de datos: {3, 4, 6, 8, 5}. Siguiendo el procedimiento para hallar la media se tiene que para este conjunto de datos la media es 5.2, y hay 5 observaciones, siguiendo la fórmula anteriormente plasmada tenemos que:
Desviación estándar: Bajo mi opinión esta medida de dispersión es una de las más importantes de toda la estadística, dado que nos permite inferir qué tan alejados se encuentran los datos de la media, normalmente, además que permite encontrar valores atípicos (esto es muy útil si se busca hacer una "limpieza de datos"), y también permite hallar intervalos en los cuales están agrupados cierta cantidad de los datos, donde los principales intervalos son:
Media + (1 * sd) = incluye el 68.2% de los datos alrededor de la media.
Media + (2 * sd) = incluye el 95.4% de los datos alrededor de la media.
Media + (3 * sd) = incluye el 99.6% de los datos alrededor de la media.
Donde sd es la desviación estándar.
La desviación estándar puede interpretarse de formas distintas según el tipo de datos que se estén analizando, la forma de calcular esta medida es sacar la raíz cuadrada de la varianza. Por ejemplo, para el conjunto de datos anterior se tiene que la desviación estándar sería la raíz cuadrada de 1.9235, la cual es 1.3869 ¿Qué interpretación le damos? Pues al no haber definido un contexto para el grupo de datos, no es posible darle alguna definición, pero supongamos que los datos son las edades de niños que están entre el jardín de niños y el grado 5° de primaria, así podríamos decir que los niños presentes en la muestra están en una edad alrededor de 5.2 años (recordar que esta es la media), con un margen de 1.3869 años para obtener el 68.2% de los datos, el doble (2.7738 años) para el 95.4% o el triple (4.1607 años) para el 99.6% de los datos. A continuación un gráfico que resume la media, mediana y desviación estándar.
La media está plasmada en la parte más alta del gráfico, el intervalo del 68.2% de los datos tiene el color azul oscuro (34.1% por encima y debajo de la media), el segundo intervalo (Media + 2*sd) tiene un color más claro de azul 95.4% (13.6% por encima y debajo de la media), y el tercer intervalo (Media + 3*sd) tiene un color más claro y tiene el 99.6% de los datos (2.1% por encima y por debajo de la media).
Valores atípicos: Como se mencionó en una nota anteriormente, estos valores afectan a la media, y esto puede representar un problema para el análisis descriptivo, pudiéndonos llevar a conclusiones erradas, normalmente estos valores son culpa de un error humano al tomar los datos, o de fallas en el sistema analizado (fallas en un sensor, por ejemplo), pero en algunos casos estos datos atípicos son permisibles; esto último se entiende mejor con un ejemplo, así que hagamos uno: Se tiene un grupo de datos de ganancias medidas en dólares para un conjunto de empresas, en un solo mes (datos ficticios, obviamente), y estos son:
Nike: 17.245
Google: 120.154
Microsoft: 32.650
Tesla: 24.740
Azúcar Manuelita: 340
Puma: 20.453
Antes de hacer algún cálculo primero es necesario definir las fórmulas, existen datos atípicos leves y graves.
Datos atípicos leves: Cualquier observación menor Q(1) - [1.5*(RIQ)]; o mayor que Q(3) + [1.5*(RIQ)]
Datos atípicos graves: Cualquier observación menor que Q(1) - [3*(RIQ)]; o mayor que Q(3) + [3*(RIQ)]
La media entre 18 y 20 está dada por
2. Cuando el número de datos por analizar es impar: Se sigue la misma metodología que en el caso del número de datos pares, pero aquí no será necesario buscar 2 datos que separen a la muestra, dado que aquí solo 1 dato divide a todas las observaciones en 2 grupos con el 20% de la información. Ejemplo: Tenemos 7 grupos de vendedores y estos reportan las siguientes ventas de empanadas: 200, 157, 169, 234, 187, 251, 193 ¿Alrededor de cuantas empanadas se espera que hayan vendido los grupos? Siguiendo la metodología anterior:
a. Organizamos los datos de menor a mayor: 157, 169, 187, 193, 200, 234, 251. También se le van a atribuir posiciones a los datos dependiendo de su orden, en este caso hay 7 datos, así se tiene que el orden será, 1, 2, 3, 4, 5, 6, 7, y el dato que divide por la mitad a las observaciones es el que se encuentra en la posición 4, dividiendo a los datos en 2 grupos de 3 observaciones cada uno.
b. Buscamos el dato que divide por la mitad a las observaciones: En este caso no es necesario obtener la media, solo buscamos el dato en la posición 4, el cual es 193, por lo tanto se puede concluir que se espera que cada grupo venda alrededor de 193 empanadas.
NOTA: La principal diferencia entre la media y la mediana es que la media es altamente sensible a los valores atípicos (serán explicados más adelante), y la mediana no se ve afectada notablemente por estos, así que es útil comparar la media y la mediana para hacerse una idea de si existen datos atípicos entre las observaciones (Repito, solo sirve para hacerse una idea, el método para comprobar la existencia de los datos será explicado más adelante).
Moda: La moda puede ser definida como "El valor que más se repite dentro del conjunto de datos", y normalmente es implementado para analizar variables del tipo categórico (nombres, direcciones, meses, marcas, etcétera), por ejemplo: Se tienen 6 personas y se les pregunta la marca de teléfono que prefieren, sus respuestas fueron: Huawei, Samsung, Huawei, iPhone, Samsung, Huawei, tras hacer el conteo se tiene que para cada una de las marcas mencionadas el número de repeticiones es:
iPhone: 1, Samsung: 2, Huawei: 3, así es posible concluir que la marca de teléfono más popular entre el grupo de 6 personas es Huawei, con 3 personas que la prefieren.
Varianza: Este es uno de los conceptos más complejos de la estadística descriptiva básica, dado que la varianza es implementada para hallar la desviación estándar, y es poco común que se use para otras cosas en casos básicos de análisis estadístico descriptivo, su definición formal sería "la media de los cuadrados de las diferencias entre cada valor de la variable en estudio y la media de esa distribución de datos de la variable ", algo confuso ¿No? Tratando de simplificar un poco el proceso para obtener la varianza, sería la resta que hay entre la media y cada una de las observaciones, elevar el resultado de cada una de las restas al cuadrado, sumar esos resultados, y posteriormente dividir todo entre el número de observaciones, a continuación una fórmula para entenderla más fácilmente:
Donde la "x" que tiene una barra encima representa a la media, y la "x" sola a cada una de las observaciones, ahora una ejemplo: Obtener la varianza del siguiente conjunto de datos: {3, 4, 6, 8, 5}. Siguiendo el procedimiento para hallar la media se tiene que para este conjunto de datos la media es 5.2, y hay 5 observaciones, siguiendo la fórmula anteriormente plasmada tenemos que:
Así tras hallar el resultado se tiene que la varianza para nuestro conjunto de datos es 1.9235.
Desviación estándar: Bajo mi opinión esta medida de dispersión es una de las más importantes de toda la estadística, dado que nos permite inferir qué tan alejados se encuentran los datos de la media, normalmente, además que permite encontrar valores atípicos (esto es muy útil si se busca hacer una "limpieza de datos"), y también permite hallar intervalos en los cuales están agrupados cierta cantidad de los datos, donde los principales intervalos son:
Media + (1 * sd) = incluye el 68.2% de los datos alrededor de la media.
Media + (2 * sd) = incluye el 95.4% de los datos alrededor de la media.
Media + (3 * sd) = incluye el 99.6% de los datos alrededor de la media.
Donde sd es la desviación estándar.
La desviación estándar puede interpretarse de formas distintas según el tipo de datos que se estén analizando, la forma de calcular esta medida es sacar la raíz cuadrada de la varianza. Por ejemplo, para el conjunto de datos anterior se tiene que la desviación estándar sería la raíz cuadrada de 1.9235, la cual es 1.3869 ¿Qué interpretación le damos? Pues al no haber definido un contexto para el grupo de datos, no es posible darle alguna definición, pero supongamos que los datos son las edades de niños que están entre el jardín de niños y el grado 5° de primaria, así podríamos decir que los niños presentes en la muestra están en una edad alrededor de 5.2 años (recordar que esta es la media), con un margen de 1.3869 años para obtener el 68.2% de los datos, el doble (2.7738 años) para el 95.4% o el triple (4.1607 años) para el 99.6% de los datos. A continuación un gráfico que resume la media, mediana y desviación estándar.
La media está plasmada en la parte más alta del gráfico, el intervalo del 68.2% de los datos tiene el color azul oscuro (34.1% por encima y debajo de la media), el segundo intervalo (Media + 2*sd) tiene un color más claro de azul 95.4% (13.6% por encima y debajo de la media), y el tercer intervalo (Media + 3*sd) tiene un color más claro y tiene el 99.6% de los datos (2.1% por encima y por debajo de la media).
Valores atípicos: Como se mencionó en una nota anteriormente, estos valores afectan a la media, y esto puede representar un problema para el análisis descriptivo, pudiéndonos llevar a conclusiones erradas, normalmente estos valores son culpa de un error humano al tomar los datos, o de fallas en el sistema analizado (fallas en un sensor, por ejemplo), pero en algunos casos estos datos atípicos son permisibles; esto último se entiende mejor con un ejemplo, así que hagamos uno: Se tiene un grupo de datos de ganancias medidas en dólares para un conjunto de empresas, en un solo mes (datos ficticios, obviamente), y estos son:
Nike: 17.245
Google: 120.154
Microsoft: 32.650
Tesla: 24.740
Azúcar Manuelita: 340
Puma: 20.453
Antes de hacer algún cálculo primero es necesario definir las fórmulas, existen datos atípicos leves y graves.
Datos atípicos leves: Cualquier observación menor Q(1) - [1.5*(RIQ)]; o mayor que Q(3) + [1.5*(RIQ)]
Datos atípicos graves: Cualquier observación menor que Q(1) - [3*(RIQ)]; o mayor que Q(3) + [3*(RIQ)]
Donde Q(1) representa al primer cuartil, Q(3) al tercer cuartil, y RIQ al rango intercuartílico (Q(3) - Q(1)). Aquí hay una explicación de como hallar los cuartiles, además de una calculadora de estos.
Para nuestros datos el cuartil 1 es 13018.75 y el tercer cuartil es 54551, así el rango intercuartílico es la resta entre estos, osea RIQ = 19902.5, así los datos atípicos están dados a partir de:
Leves: Menores a 13018.75 - [1.5*(41532.25)], mayores a 54551 + [1.5*(41532.25)]
Leves: Menores a -49.279,625 o mayores a 116849.375
Graves: Menores a 13018.75 - [3*(41532.25)], mayores a 54551 + [3*(41532.25)]
Graves: Menores a -111578 mayores a 179147.75
Por lo tanto el dato de las ganancias de Google se pueden considerar como un valor atípico leve, dado que es mayor a 116849.375, pero, dado que en el contexto del problema no tenemos claro de donde salieron los datos (obviamente son inventados, pero me refiero a que no tenemos un contexto científico de la situación), ni tampoco nos consta que sea imposible generar esa cantidad de ingresos en un mes, es posible dejar este valor, dado que puede que no sea atípico bajo el contexto real del problema.
NOTA 2: Así como en el caso anterior, es posible que se presenten otros problemas en los cuales un dato que sea numéricamente atípico, no lo sea realmente, dado que es posible bajo el contexto del problema, ejemplo: Las mediciones del viento en el día pueden estar alrededor de 10 km/h, pero si pasa un huracán pueden ser medidas de 200 km/h, esto probablemente sea un dato atípico, pero al ser posible bajo el contexto del problema (un huracán puede suceder en cualquier momento), son datos reales, y deben ser conservados.
Curtosis: Hace referencia a la forma en que se distribuyen los datos de la muestra en torno al valor central, Los datos se pueden distribuir de forma que tengamos un gran apuntamiento (o pico en el histograma) alrededor del valor central, en cuyo caso diremos que tenemos una distribución leptocúrtica, o en el extremo contrario, el histograma puede ser muy aplanado, lo que corresponde a una distribución platicúrtica. En el caso intermedio, diremos que la distribución es mesocúrtica y el agrupamiento corresponderá al de una distribución llamada normal, o en forma de campana de Gauss.
El coeficiente de curtosis puede ser hallado de esta forma, pero es posible notar que hallarlo manualmente puede ser tedioso, así que este coeficiente como los demás es preferible hallarlos mediante algún software (Excel, Statgraphics, R, SAS, SPSS, etcétera).
Asimetría: La asimetría de una distribución hace referencia al grado en que los datos se reparten por encima y por debajo de la tendencia central (media - mediana), se tiene que dado el coeficiente de asimetría se puede hacer una idea de la forma de la distribución de los datos, de esta forma:
Asimetría negativa: Coeficiente de asimetría menor a 0
Asimetría positiva: Coeficiente de asimetría superior a 0
Asimetría neutra: Coeficiente de asimetría igual a 0
Este coeficiente también es preferible calcularlo mediante algún software, dado que es un poco tedioso su cálculo manual.
Y con esto llegamos al final de este resumen de estadística descriptiva, espero les haya sido útil, aquí les dejo un link en el cual pueden apreciar cómo llevar a cabo todos estos cálculos mediante Excel de forma rápida y sencilla.
Si tienen dudas, no duden en acudir a la sección de comentarios.



Comentarios
Publicar un comentario