Cálculo del tamaño muestral

José María Bellón

hace 13 años

Introducción

La mayoría de las veces no es factible reunir todos los elementos de una población para poder estudiarlos y responder a las preguntas de nuestro estudio. Uno de los objetivos principales de la estadística es obtener información a partir de los resultados de una muestra e inferir dichos resultados a la población de la cual procede. El problema para el investigador es decidir qué tamaño muestral necesita y cuál será el procedimiento para elegir los elementos de su muestra. En este capítulo trataremos de ver las dificultades que subyacen a la primera pregunta y reflexionar sobre ella: ¿Cuántos pacientes voy a necesitar?

¿Porqué calcular el tamaño muestral?

No es fácil calcular el número de pacientes que un investigador necesita para responder a su pregunta de estudio, entre otras razones, porque no existe un número único, ya que va a depender de muchos factores. Por escasos que sean nuestros conocimientos en estadística y en probabilidad, cualquier persona intuye que se puede fiar más de un estudio que tenga un gran tamaño muestral que de otro que tenga pocos pacientes. Efectivamente así es, cuanto mayor sea el tamaño muestral mejor. Sin embargo, para responder nuestra pregunta de estudio: ¿para qué reclutar 500 pacientes si 100 pueden ser suficientes?

Los errores que podemos cometer en la recogida de los datos se pueden clasificar en errores sistemáticos y aleatorios. El primero puede estar originado por un defecto en el instrumento de medida o por la forma en la que obtenemos nuestras mediciones. El segundo, el error aleatorio, no es predecible y es debido al azar. Se relaciona con la falta de precisión. Este error se produce normalmente por errores en la medición y en la variabilidad de las observaciones, y en definitiva, porque trabajamos con una muestra. El error sistemático es más grave y también más difícil de detectar. Puede ser debido a la elección de una muestra no representativa, mediciones de mala calidad, etc. Este tipo de error nos va a provocar sesgos en los resultados y al mismo tiempo va a afectar a la validez del estudio.

Un buen ejemplo para distinguir ambos errores es el siguiente: queremos saber nuestro peso y para ello disponemos de una báscula poco precisa. Cada vez que nos pesamos nos da un resultado distinto con una diferencia de +/- ? Kg. (donde ? es una cantidad desconocida). En este caso estaríamos ante un error aleatorio. Sin embargo si la báscula estuviese mal calibrada y diese en cada pesada un resultado +? Kg. superior a nuestro peso real (siendo ? una cantidad igualmente desconocida), cometeríamos un error sistemático. En el primer caso (error aleatorio), podemos saber nuestro peso real con repetir las pesadas y realizar una media. Sin embargo en el segundo caso, por más que repitiera las pesadas, siempre obtendría un resultado superior a mi peso real de +? kg.

Podemos reducir el error sistemático mediante la selección y el análisis de una muestra lo más representativa de la población a estudio. Para conseguirlo, nos puede ayudar una selección aleatoria de los elementos que componen la muestra a estudiar (aunque esto por sí mismo, no es una garantía). También podemos reducir el error sistemático mediante un diseño de estudio eficaz, con una buena calidad en la información recogida y con mediciones estandarizadas.

El error aleatorio no puede ser eliminado, pero sí reducido con un diseño de estudio más eficiente y aumentando el tamaño muestral. Este tipo de error es estimado y es el que se tiene en cuenta al calcular los intervalos de confianza y al aplicar las pruebas de contraste de hipótesis. Por lo tanto, a mayor tamaño muestral, mayor precisión y menor error aleatorio en nuestras estimaciones. Sin embargo, hay que tener en cuenta que el tamaño muestral no reduce el error sistemático como hemos podido ver en el ejemplo de la báscula y las pesadas.

Las fórmulas para calcular el tamaño muestral

Las fórmulas utilizadas para calcular el tamaño muestral, tienen en cuenta el error aleatorio, no el sistemático. Fórmulas hay muchas y dependen del tipo de estudio y de los objetivos planteados. Veamos el ejemplo más sencillo para calcular un tamaño muestral que es la estimación de una prevalencia.

Imaginemos que un investigador desea calcular la prevalencia de EPOC en personas mayores de 40 años en la Comunidad Autónoma de Madrid. Suponiendo el diseño más sencillo posible que consiste en la elección de una muestra aleatoria simple (MAS) de toda la población elegible, la fórmula para calcular el tamaño muestral sería la siguiente:

Donde:

Z_1-_a: Es el valor Z correspondiente a un riesgo alfa prefijado de antemano. Aquí ya empiezan los problemas. La Z es el valor de una distribución Normal de media 0 y desviación típica 1. En función de la confianza deseada para la construcción de nuestro intervalo de confianza (IC), este valor puede variar. Si queremos construir un intervalo de confianza del 95%, el a será de 0,05, y para dicho valor, Z=1,96. Esta cifra se puede calcular con cualquier programa estadístico o simplemente en una tabla en donde aparezca tabulada la distribución Normal (0, 1). Los valores usados con más frecuencia son Z=1,96 para construir intervalos de confianza del 95% y de Z=2,58 para crear IC del 99%. Un IC del 95% asume un riesgo alfa del 5% mientras que un IC del 99% asume un riesgo del 1%. En el caso del riego alfa del 5%, queremos decir que puede que el intervalo de confianza construido no incluya al verdadero valor poblacional, y asumimos que esto pueda suceder el 5% de las veces.

p: Es un valor aproximado del parámetro que queremos medir, en nuestro ejemplo es la prevalencia de EPOC (no confundir con la p de la significación estadística).

d: Es la precisión deseada para nuestro estudio. Dicho de otro modo, es la amplitud deseada para nuestro intervalo de confianza.

Como vemos son varias las preguntas a responder por el investigador. En primer lugar debe decidir sobre el riesgo alfa dispuesto a asumir (probabilidad de cometer un error tipo 1), o lo que es lo mismo: la confiabilidad del intervalo de confianza (IC). Mayor confianza implica un intervalo más ancho y por tanto menor información en la estimación de la prevalencia de EPOC, ya que el rango de posibles valores será mayor. No es lo mismo decir que la prevalencia de EPOC está entre el 4 y el 16% con un IC del 99%, que decir que estará entre el 9 y el 11% con un IC del 95%.

Si decidimos tener un IC del 95%, el valor de Z que se debe poner en la fórmula es de 1,96. Esto quiere decir que cuando estimemos nuestra prevalencia en función de los resultados de nuestra muestra, podremos dar un IC dentro del cual confiamos que estará el verdadero valor poblacional en el 95% de las veces.

Otra pregunta a responder es la prevalencia de EPOC que pensamos pueda tener la población de Madrid mayor de 40 años. El valor de “p” en la fórmula. Y aquí entramos en otro problema y en una clara contradicción. Tenemos que adelantar un valor que nos es desconocido y además es precisamente el que estamos tratando de averiguar. Aquí las opciones son varias. Podemos buscar las prevalencias obtenidas en otros estudios similares al nuestro, revisar la bibliografía existente, adelantar un valor según nuestra experiencia y conocimientos, o realizar un estudio piloto. Con ello adelantamos el valor de “p”, que aún siendo subjetivo, está lejos de ser un valor arbitrario. Imaginemos que por otros estudios previos pensamos que la prevalencia puede estar cercana al 10%, y por tanto p=0,10.

Por último, debemos decidir la precisión de nuestra estimación (d). Esta precisión vendrá determinada por la amplitud que deseemos para nuestro IC. Si queremos dar un precisión del 3%, entonces d=0,03. Un IC más estrecho se puede conseguir disminuyendo la confianza de los intervalos, por ejemplo al pasar del 99 al 95% o bien disminuyendo el valor d, lo que significa aumentar la precisión.

Aplicando la fórmula obtendríamos los siguientes resultados:

Por tanto, bajos estos supuestos, se necesitaría una muestra de 384 personas mayores de 40 años para estimar la prevalencia de EPOC con una precisión de +/-3% y con una confianza del 95%. Otro investigador con la misma experiencia y utilizando la misma fórmula pero bajo supuestos distintos, podría obtener un tamaño totalmente distinto. Si espera una prevalencia de EPOC cercana al 15% y quiere una precisión de +/-2%, con el mismo nivel de confianza, necesitaría 1225 pacientes. Es decir, ¡necesitaría más del triple de pacientes que el investigador anterior para estimar lo mismo!

Pero la cosa se complica aún más. El error muestral que se comete en la estimación de un parámetro depende del tipo de diseño escogido para seleccionar los elementos que forman la muestra. Con el mismo tamaño de muestra, es mayor el error cometido en un diseño complejo (por ejemplo, un muestreo de conglomerados) que el error cometido en un muestreo aleatorio simple (MAS). Normalmente, las fórmulas que calculan el tamaño de muestra en función de la precisión, asumen que se va a realizar un MAS. Sin embargo, diseños de estudio más complejos conllevan un mayor error, y por ello, para garantizar el grado de precisión hay que aumentar el tamaño muestral.

Una forma de «corregir» el tamaño muestral en función del diseño, es multiplicar el tamaño obtenido por MAS por un valor denominado efecto de diseño. Este valor se calcula como el cociente entre el error estándar correspondiente al diseño empleado y el error que se hubiese obtenido si la muestra se hubiese elegido por MAS. Cuando toma el valor de 1, indica que el diseño utilizado es tan eficiente como uno simple al azar (MAS), y cuando toma un valor mayor a uno, indica que el diseño utilizado tiene un error estándar mayor al que se obtendría por MAS. No es nada fácil obtener una buena estimación para este valor, pero en la práctica se asumen valores que oscilan entre 1,5 y 3. Un valor igual a 2, por ejemplo, significa que para obtener la misma precisión que la obtenida por MAS hay que estudiar al doble de individuos. En mi opinión, es un número obtenido muchas veces como por arte de magia del cual no he encontrado ninguna explicación satisfactoria de cómo hay que calcularlo.

Como vemos es todo bastante confuso a pesar de encontrarnos en el supuesto más sencillo, que es la estimación de una proporción. Imaginemos cómo se puede complicar el asunto en otras situaciones en las que estuviésemos ante estudios analíticos y tratásemos de averiguar si hay diferencias entre grupos.

Problemas para calcular el tamaño muestral

Resumamos brevemente algunos de los problemas que nos encontramos al calcular el tamaño muestral.

Subjetividad en los parámetros utilizados en las fórmulas de cálculo de tamaño muestral.

Como hemos visto en nuestro ejemplo de prevalencia de EPOC, son muchas las decisiones que tiene que tomar el investigador para calcular el tamaño muestral, no estando a veces lo suficientemente preparado para ello. Debe decidir la amplitud de los intervalos de confianza, la precisión mínima admisible, la prevalencia aproximada de EPOC, etc. Además hay que añadir el efecto de diseño, ya que como hemos visto anteriormente, las fórmulas sirven cuando el diseño es un MAS, siendo más frecuentes diseños por etapas, como el diseño por conglomerados. Por lo tanto, pequeñas diferencias en la decisión inicial sobre cualquier parámetro que compone la fórmula, puede conducir a grandes diferencias en la estimación del tamaño muestral. No en vano, en muchas ocasiones se hace justo lo contrario: dada la limitación de los recursos disponibles, se manipulan los valores de a, P, d y el efecto de diseño para que la n obtenida sea la que el investigador había prefijado con anterioridad.

Estimación de más de un parámetro.

Casi siempre que se realiza un estudio es para estimar más de un parámetro, sin embargo las fórmulas sólo incluyen para su cálculo un solo parámetro. En este caso lo aconsejable es calcular el tamaño muestral para el parámetro o parámetros más importantes, lo que puede dar lugar a una gran variedad de tamaños muestrales. Tampoco podemos olvidar que en la propia elección de los “parámetros importantes” hay un alto componente de subjetividad. Además una vez recogidos los datos, se hacen estimaciones de todo tipo de parámetros no contemplados en la fórmula inicial: coeficientes de correlación, concordancia, pendientes de regresión, etc.

Estimación de parámetros en subgrupos muestrales.

Aparte de estimar un parámetro en población general, muchas veces se quiere estimar lo mismo en diferentes subgrupos. Por ejemplo, calculada la prevalencia de EPOC, seguro que interesa saber si difiere por grupos de edad, por sexo, por área de salud, etc. Sin embargo el tamaño muestral obtenido, se determinó inicialmente para estimar la prevalencia de EPOC en toda la población de Madrid no para hacerlo en subgrupos. El error de muestreo que se comete al estimar y comparar los diferentes subconjuntos muestrales, aumenta considerablemente, ya que el tamaño muestral de estos subgrupos puede ser claramente insuficiente invalidando cualquier comparación que se haga.

Conclusiones

En la práctica, vamos a estar limitados por los recursos disponibles para llevar a cabo la investigación, es decir, por algo tan simple como el tiempo y el dinero. Esta limitación va a estar siempre presente durante el diseño del estudio y en la recogida de los datos. En consecuencia, muchas veces la pregunta se transforma en esta otra: los pacientes que espero y puedo estudiar ¿van a ser suficientes para responder de forma satisfactoria mi pregunta de estudio y por tanto alcanzar los objetivos de mi investigación?

Hay un gran componente subjetivo en la determinación de cualquier tamaño muestral por lo que debemos tomar los cálculos obtenidos por las fórmulas como valores solamente orientativos, ya que el tamaño muestral, inevitablemente está limitado e incluso a veces predeterminado por nuestros recursos materiales. Una adecuada revisión bibliográfica sobre los tamaños muestrales utilizados en estudios similares al nuestro, la propia experiencia del investigador, su enfoque del problema y el uso del sentido común, pueden ayudar al establecimiento de un tamaño muestral, que como hemos visto, no es único.

Bibliografía recomendada

1 Muñiz-García, J. y Santiago-Pérez, M. (2006). ¿Cuántos pacientes selecciono para mi estudio?. Angiología 58 (2): 145-150.

2 Martínez González, M. A.,Sánchez-Villegas, A. y Faulín Fajardo, F. J. (2006). Intervalos de confianza y contraste de hipótesis. Bioestadística Amigable. 2ª Edición. Ed: Díaz de Santos. 155-233.

3 Pita Fernández, S. (1996). http://www.fisterra.com/mbe/investiga/9muestras/9muestras.asp. Determinación del tamaño muestral. Cad Aten Primaria 3: 131-14.

4 EPIDAT 3.1. Programa para análisis epidemiológico de datos tabulados. Muestreo. http://dxsp.sergas.es/ApliEdatos/Epidat/Ayuda/3-Ayuda%20Muestreo.pdf.

5 Silva Ayçaguer, L. C. (1997). El enigma del tamaño muestral. Cultura estadística e investigación científica en el campo de la salud: una mirada crítica. Ed: Díaz de Santos. 285-305.

6 Martínez González, M. A.,Sánchez-Villegas, A. y Faulín Fajardo, F. J. (2006). Estimación del tamaño muestral. Bioestadística Amigable. 2ª Edición. Ed: Díaz de Santos. 373-417.