Estadística Descriptiva con el SPSS

Es el primer paso a realizar después de introducir los datos. Este análisis nos permitirá controlar la presencia de posibles errores en la fase de introducción de los datos para poder corregirlos. Además podremos estudiar en qué variables tenemos valores perdidos y en qué medida la ausencia de datos podría perjudicar el análisis y las conclusiones de nuestro estudio.

La estadística descriptiva se va a encargar de resumir y de sintetizar la información de nuestros datos, proporcionando una idea de la forma que tiene cada una de las variables: su posible distribución con sus parámetros de centralización: media, mediana y moda; así como sus parámetros de dispersión: varianza, desviación típica, etc.

En el SPSS, independientemente de la versión con la que trabajemos, tenemos varias herramientas para realizar esta descripción de las variables bajo el menú Analizar -> Estadísticos descriptivos.

clip_image002

Procedimiento Frecuencias (FREQUENCIES)

La ejecución de este procedimiento proporciona un gran número de resultados estadísticos y gráficos, así como tablas con información numérica.

La elección de los estadísticos dependerá del tipo de variable a analizar. En el caso de variables cuantitativas tiene sentido la solicitud de estadísticos de centralización, dispersión y forma de la distribución, mientras que en variables cualitativas el interés se centrará en la obtención de la tabla de frecuencias, con las frecuencias absolutas y los porcentajes.

Para el caso de variables cualitativas se puede utilizar este comando para la obtención de las tablas de frecuencias y porcentajes. Es posible introducir más de una variable al mismo tiempo, aunque se recomienda no mezclar variables cualitativas y cuantitativas al mismo tiempo para evitar equivocaciones en la interpretación de los resultados.

Vemos un ejemplo: seleccionamos la variable ”%CD4 Basal Agrupado” que es una variable cualitativa con tres categorías y pulsamos la flecha:

clip_image004[1]

En el botón Formato pueden ordenarse las tablas de frecuencias según el valor de la variable o según las frecuencias observadas (existen 4 opciones): Valores ascendentes o descendentes, frecuencias ascendentes o descendentes. El resultado es el siguiente:

clip_image006[1]

El número de pacientes que tenemos es de 49, sin embargo, tan solo disponemos de información del %CD4 de 48 pacientes. Es lo que el SPSS denomina como casos válidos.

La siguiente tabla nos muestra las frecuencias y porcentajes de cada una de las categorías. “Perdidos Sistema” nos indica en cuántos pacientes nos falta la información de esa variable. La columna “Porcentaje”, utiliza como cociente el total de nº de casos: 49, mientras que la columna de “Porcentaje válido” utiliza como cociente el total de casos de los que disponemos de información, que en nuestro caso son 48. La columna “Porcentaje acumulado” es la suma acumulada del porcentaje válido.

Para las variables cuantitativas continuas se puede optar por suprimir la tabla de frecuencias que el programa ofrece por defecto. En el ejemplo hemos puesto la variable “%CD4 Basal”, que es numérica.

clip_image008[1]

En el ejemplo, se desea conocer la media, mediana, cuartiles, desviación típica y los valores mínimo y máximo de la variable “%CD4 Basal”.

Dentro de las opciones de frecuencias, también tenemos la posibilidad de pedir gráficos pulsando el botón Gráficos . Los gráficos disponibles son: Diagramas de barras (Bar charts), Diagramas de sectores (Pie charts) e Histogramas (Histograms). A estos últimos se les puede solicitar que además muestren dibujada la forma de una curva normal. En este caso, hemos pedido el histograma de frecuencias con curva normal.

clip_image010[1]

Posteriormente, pulsamos Aceptar obteniendo los siguientes resultados:

clip_image012[1]

Si el objetivo del análisis fuese realizar una descripción de determinadas variables estratificando por una variable cualitativa, se podría segmentar el archivo: Datos -> Segmentar archivo… -> Comparar los grupos.

Tanto en los diagramas de barras como en los diagramas de sectores se puede solicitar que los valores que se muestran en el gráfico sean las frecuencias absolutas o bien los porcentajes.

Si pulsamos el botón Pegar se nos abrirá una ventana de sintaxis en la que se incluirán los comandos del procedimiento FRECUENCIES. Es muy recomendable pegar todos los comandos de nuestra sesión de trabajo, ya que siempre podremos tener disponibles todos los pasos de nuestro análisis estadístico con la opción de ejecutar y obtener los resultados de la estadística en cualquier momento.

clip_image014[1]

Muchas de las opciones que ofrece el SPSS solo están disponibles desde la sintaxis, no pudiéndose realizar a través de los menús del programa.

Procedimiento Descriptivos (DESCRIPTIVES)

El procedimiento Descriptives genera descripciones numéricas de las variables cuantitativas continuas (media, desviación, varianza, etc.). Es similar al anterior procedimiento de frecuencias, aunque algo más limitado pues no cuenta con la posibilidad de generar gráficas. En el botón Opciones… se pueden solicitar los distintos estadísticos, así como indicarle el orden en que deseamos que nos muestre los resultados: según el listado de variables solicitado (Lista de variables), según orden alfabético de los nombres de las variables (Alfabético), según los valores de las medias de las distintas variables ordenadas de menor a mayor (Medidas ascendentes) o, por último, según los valores de las medias de las variables ordenadas de mayor a menor (Medidas descendentes).

Una opción interesante con este procedimiento es que nos permite transformar las variables y guardar sus valores tipicados, es decir, la misma variable transformada de media 0 y desviación típica 1.

clip_image016[1]

Procedimiento Explorar (EXPLORE)

Es el procedimiento más completo para el análisis de variables continuas. A excepción de las tablas de frecuencias (que sólo es posible obtenerlas a través del procedimiento Frequencies) mediante Explore se puede obtener el resto de resultados anteriores. Además permite estratificar los resultados por determinadas variables sin necesidad de segmentar previamente el archivo de datos.

La variable/s numérica a analizar se indica en la ventanilla Dependientes y en la ventanilla Factores aquella por la que queremos estratificar los resultados.

clip_image018

En el recuadro Mostrar podemos indicarle que nos muestre en resultados los estadísticos solicitados (Estadísticos), los gráficos solicitados (Gráficos) o ambos a la vez (Ambos).

En el botón Estadísticos se solicitan los estadísticos de interés:

Descriptivos: Muestra la media, intervalo de confianza al 95%, mediana, moda, la media recortada al 5% (media aritmética calculada eliminando el 5% de las observaciones más bajas y el 5% de las más altas), varianza, desviación típica, mínimo y máximo, la amplitud intercuartílica, la asimetría (cuando la distribución es normal, la asimetría vale 0; una distribución con asimetría positiva significa que tiene una cola derecha larga, mientras que una asimetría negativa significa que tiene una cola izquierda larga) y la curtosis (informa sobre el grado de inclinación de la distribución o grado en el cual las observaciones están agrupadas en torno a un valor central; la distribución normal tiene una curtosis igual a 0; una curtorsis positiva indica que las observaciones se concentran más que la distribución normal; una curtorsis negativa indica que las observaciones se agrupan menos).

Tipo de histogramas en función del Coeficiente de Asimetría (CA):

clip_image020[1]

· Si CA>0 es asimétrica a la derecha: media>mediana>moda (A)

· Si CA es cero es simétrica: media=mediana=moda (B)

· Si CA<0 es asimétrica a la izquierda: media<mediana<moda (C)

Tipo de histogramas en función de su Coeficiente de Curtosis (CC) o apuntamiento:

clip_image022[1]

· Si CC>0 la distribución es más apuntada que la distribución normal: LEPTOCURTICA

· Si CC=0 la distribución es TAN apuntada COMO la distribución normal: MESOCURTICA

· Si CC<0 la distribución es MENOS apuntada QUE la distribución normal: PLATICURTICA

Aproximadamente una asimetría y una curtosis que está dentro de +/-2 errores típicos, se pueden considerar como distribuciones cuya forma no difiere mucho a la de una distribución normal.

Estimadores robustos centrales: Estimadores robustos de máxima verosimilitud de la tendencia central. Muestra cuatro estimadores distintos que difieren entre sí en los pesos que aplican a los casos.

Valores atípicos: Muestra los cinco valores mayores y los cinco valores menores.

Percentiles: Muestra los valores para los percentiles 5, 10, 25, 50, 75, 90 y 95.

En el botón Gráficos se pueden solicitar distintos gráficos:

Histograma: Representa gráficamente la distribución de una variable.

Gráfico de tallo y hojas: Gráficos de resumen similares a los histogramas, que preservan más información al conservar los datos. En lugar de usar el mismo símbolo para representar todos los casos, los gráficos de tallo y hojas usan los valores de los datos reales. Cada valor observado se divide en dos componentes: un tallo (dígitos precedentes) y una hoja (el dígito posterior). Las hojas determinan los símbolos utilizados en el gráfico.

Ejemplo: Se ha representado mediante el diagrama de tallos y hojas la edad de un conjunto de individuos. Se han coloreado algunos valores para facilitar su lectura:

clip_image024[1]

Interpretando el gráfico nos dice que hay 2 valores extremos por debajo de 43 años y 3 valores por encima de 77 (señalados en rojo). El tallo indica las decenas (en verde). Tenemos dos personas con 49 años. Hay 10 personas de las cuales dos tienen 50 años, dos con 51, uno con 52, tres con 53 y dos con 54. Del mismo modo, tenemos 19 personas de las cuales dos tienen 55 años, 6 con 56 años…

Diagramas de caja (Boxplots): Gráficos de resumen que se basan en la mediana, los cuartiles y los valores extremos. Los diagramas de cajas están constituidos por cajas, que contienen el 50% de los valores comprendidos entre los percentiles 25 y 75. La línea que atraviesa el cuadro central (la caja) indica el valor de la mediana. Los diagramas de cajas también proporcionan información sobre la dispersión y la asimetría y pueden utilizarse para identificar valores atípicos y extremos. Estos últimos suelen aparecer con símbolo del “*”.

clip_image026[1]clip_image028[1]

 

Artículos relacionados: