miércoles, 14 de abril de 2010

Intervalo de confianza para una proporción.

Si de 100 personas encuestadas, 30 se manifiestan a favor de un determinado partido político, ¿qué porcentaje de votos obtendría dicho partido de celebrarse en ese momento las elecciones? (confianza del 95%)
Obsérvese que x="nº de individuos, entre los 100 encuestados, que votarán al candidato" es una Binomial de parámetro n = 100 y p desconocido. El objetivo es determinar p teniendo en cuenta que x sigue una B(n,p), con n = 100 y x = 30 el valor obtenido experimentalmente de esa Binomial. Conviene expresar que todo lo que sigue contiene las fórmulas para p expresadas en tantos por uno, no en %.
Uso de Intervalos de Confianza para verificar Hipótesis.
Los intervalos de confianza permiten verificar hipótesis planteadas respecto a parámetros poblacionales.
Por ejemplo, supongamos que se plantea la hipótesis de que el promedio de peso de nacimiento de cierta población es igual a la media nacional de 3250 gramos.
Al tomar una muestra de 30 recién nacidos de la población en estudio, se obtuvo:
= 2930
s= 450
n= 30
Al construir un intervalo de 95% de confianza para la media poblacional, se obtiene:

Luego, el peso de nacimiento varía entre 2769 y 3091 gramos, con una confianza de 95%. Como el intervalo no incluye el valor =3250 gramos planteado en la hipótesis, entonces esta es rechazada con confianza 95% (o un valor p menor a 0,5).

Intervalo de Confianza para una media

Supongamos una v. a. x con distribución N(µ ; ) en donde la media µ es desconocida y la varianza , la suponemos por ahora conocida. Con el fin de estimar µ (colesterol medio, nivel medio de glucosa, altura media de los varones mayores de edad, etc.) se va a tomar una muestra aleatoria x1 ,x2 ,...,xn que proporciona una media que será una estimación puntual de µ. Aceptaremos sin demostrarlo que:
(4.1)
con probabilidad del 95%, y así tenemos el intervalo buscado. Esta expresión debe interpretarse adecuadamente. Ella indica que el 95% de las muestras de tamaño n tendrán una media que, al sustituirla en la expresión, da lugar a un intervalo que contiene en su interior a µ, en tanto que otro 5% no sucederá esto. Nótese que se ha dicho que "el intervalo contiene en su interior a µ, y no que "µ cae en el interior del intervalo"; la primera afirmación es cierta pues los extremos del intervalo son v. a. por depender de que también lo es; la segunda afirmación es falsa pues µ es un parámetro (valor fijo aunque desconocido), no una v.a., no pudiendo variar. Así pues debe decirse que hay una probabilidad del 95% de que el intervalo contenga al parámetro.
En el ejemplo de la estatura media µ de los españoles, si se tiene que , dado que el 95% de los intervalos contienen a µ, diremos que "tenemos la esperanza de que este sea uno de los 95 intervalos de cada 100 que dejan en su interior a µ, esperando no haber tenido la mala suerte de que el intervalo obtenido sea uno de los 5 de cada 100 intervalos erróneos". Más abreviadamente, diremos que µ está entre (169 ; 172) "con una confianza del 95%"; de ahí el nombre de intervalo de confianza. Conviene notar que ahora se habla de "confianza" , y no de "probabilidad" como antes, pues los extremos del intervalo ya son números fijos y µ o está o no está dentro.
El intervalo (4.1) podemos expresarlo abreviadamente como
, debiéndose el valor 1,96 al 5% de error tomado, es decir z0,05 = 1,96 en la tabla de la Distribución Normal.. De un modo general, si en lugar de una confianza del 95% tomamos una de (1 - ), (o en lugar de un error del 5% se toma uno de ), entonces el intervalo será:
(4.2)
con ,en la tabla de la D. N..
Ejemplo: Para determinar la estatura media de los varones adultos españoles, se tomó una muestra al azar de 10 de ellos en la que se obtuvo los valores 162, 176, 169, 165, 171, 169, 172, 168, 167 y 175 cm. Determinar el valor de la estatura media, suponiendo que = 16.
Un estimador puntual para la estatura media µ es la que en este caso es 169,4. Para dar un intervalo de confianza hemos de suponer que es una v. a. normal. Como n=10, = 169,4 y = 4, para el intervalo de confianza al 95%, la expresión (4.1) indica que

Así pues, esperamos que este intervalo sea un de los 95 de cada 100 que contienen a µ, o, más brevemente, la estatura media de los españoles varones adultos es algún valor entre 166,92 cm y 171,88 cm con una confianza del 95%.
Es evidente que un intervalo de confianza para un dado será tanto más preciso cuanto más estrecho sea. Así, será preferible afirmar que la estatura media está entre 170 y 171 cm al 95% de confianza, que afirmar que la estatura está entre 165 y 175 con igual confianza. Como la longitud del intervalo es dos veces su radio, el mismo puede disminuirse aumentando el valor del tamaño de la muestra (pues n aparece dividiendo). Ello responde a una regla que será general en toda la Estadística: cuanto más grande sea una muestra, más información da y más precisas son las conclusiones que se obtengan a partir de ella.
La otra forma de estrechar el intervalo es disminuyendo la confianza ( es decir, aumentando el error). Así z0,05 = 1,96, pero z0,15 = 1,44, que por ser menor da un intervalo más estrecho. Sin embargo ahora la anchura del intervalo ha disminuido a costa de la seguridad (confianza) del mismo, y ello no es deseable. Lo usual es considerar errores del 5%, aunque en ocasiones se utilizan otros como los del 1% o del 10%. Nos podemos preguntar ¿se puede dar un intervalo al 100% de confianza?; la respuesta es que esto exigiría una z0,00 = , con lo que el intervalo sería ( - , ) que en el caso del ejemplo daría lugar a la afirmación "la estatura media de los españoles está entre - y ", que es absolutamente cierta y absolutamente inútil también.
Hasta este momento hemos supuesto que la varianza de la población era conocida, lo que no suele ser real. Cuando es desconocida, lo lógico es sustituirla por su estimador s, obteniendo así que .Sin embargo s es una v. a. y unas veces será más grande que y otras más pequeña, lo que da una cierta imprecisión al intervalo. Conviene ensanchar un poco el intervalo para que la confianza del mismo permanezca. El modo de hacerlo consiste en aumentar el valor de , localizándolo en una tabla distinta. Ahora tendremos:
(4.3)
con t en la tabla de la distribución t de Student con (n-1) grados de libertad, tabla que presenta los valores de t en un formato similar al de la distribución normal, excepto en que la nueva variable depende de un nuevo parámetro llamado grados de libertad.

Teorema del límite central

El teorema del límite central o teorema central del límite indica que, en condiciones muy generales, la distribución de la suma de variables aleatorias tiende a una distribución normal (también llamada distribución gaussiana o curva de Gauss o campana de Gauss) cuando la cantidad de variables es muy grande.
Teorema: Sea X1, X2, ..., Xn una muestra aleatoria de una distribución con media μ y varianza σ2. Entonces, si n es suficientemente grande, la variable aleatoria

tiene aproximadamente una distribución normal con y .
También se cumple que si

tiene aproximadamente una distribución normal con y , cuanto más grande sea el valor de n, mejor será la aproximación.
El teorema del límite central garantiza una distribución normal cuando n es suficientemente grande.
Existen diferentes versiones del teorema, en función de las condiciones utilizadas para asegurar la convergencia. Una de las más simples establece que es suficiente que las variables que se suman sean independientes, idénticamente distribuidas, con valor esperado y varianza finitas.
La aproximación entre las dos distribuciones es, en general, mayor en el centro de las mismas que en sus extremos o colas, motivo por el cual se prefiere el nombre "teorema del límite central" ("central" califica al límite, más que al teorema).
Este teorema, perteneciente a la teoría de la probabilidad, encuentra aplicación en muchos campos relacionados, tales como la inferencia estadística o la teoría de renovación.
Veamos ahora un ejemplo:
Se lanza una moneda al aire 100 veces, si sale cara le damos el valor 1 y si sale cruz el valor 0. Cada lanzamiento es una variable independiente que se distribuye según el modelo de Bernouilli, con media 0,5 y varianza 0,25. Calcular la probabilidad de que en estos 100 lanzamientos salga más de 60 caras.
La variable suma de estas 100 variables independientes se distribuye, por tanto, según una distribución normal.
Media = 100 * 0,5 = 50
Varianza = 100 * 0,25 = 25
Para ver la probabilidad de que salgan más de 60 caras calculamos la variable normal tipificada equivalente:

(*) 5 es la raíz cuadrada de 25, o sea la desviación típica de esta distribución
Por lo tanto:
P (X > 60) = P (Y > 2,0) = 1- P (Y < 2,0) = 1 - 0,9772 = 0,0228
Es decir, la probabilidad de que al tirar 100 veces la moneda salga más de 60 caras es tan sólo del 2,28%.

Tamaño de Muestra

Es el grupo de individuos que realmente se estudiarán, es un subconjunto de la población. Para que se puedan generalizar a la población los resultados obtenidos en la muestra, ésta ha de ser «representativa» de dicha poslación. Para ello, se han de definir con claridad los criterios de inclusión y exclusión y, sobre todo, se han de utilizar las técnicas de muestreo apropiadas para garantizar dicha representatividad. El tamaño de la muestra está condicionado por los objetivos del estudio, que determinarán su diseño, las variables a considerar y el método planteado Cálculo del tamaño de la muestra
El tamaño de la muestra se determina para obtener una estimación apropiada de un determinado parámetro poblacional.
Estimación de parámetros.
La estimación de parámetros consiste en el cálculo aproximado del valor de un parámetro en la población, utilizando la inferencia estadística, a partir de los valores observados en la muestra estudiada. Para el cálculo del tamaño de la muestra en una estimación de parámetros son necesarios los conceptos de Intervalo de confianza, variabilidad del parámetro, error, nivel de confianza, valor crítico y valor α (véase estimación por intervalos).
Estimación de una proporción.
Los datos que tenemos que incluir en la fórmula para calcular el número de sujetos necesarios de la muestra (N) son:
1. Zα/2: valor de Z correspondiente al riesgo α fijado. El riesgo α fijado suele ser 0,05 y Zα/2 de 1,96.
2. P: Valor de la proporción que se supone existe en la población.
3. i: Precisión con que se desea estimar el parámetro (2i es la amplitud del intervalo de confianza).
Estimación de una media.
Los datos que tenemos que incluir en la fórmula para calcular el número de sujetos necesarios en la muestra (N) son:
1. Zα/2: valor de Z correspondiente al riesgo α fijado. El riesgo α fijado suele ser 0,05 y Zα/2 de 1,96.
2. s2: Varianza de la distribución de la variable cuantitativa que se supone que existe en la población.
3. i: Precisión con que se desea estimar el parámetro (2i es la amplitud del intervalo de confianza).

Muestreo aleatorio por conglomerados.

Se divide la población en varios grupos de características parecidas entre ellos y luego se analizan completamente algunos de los grupos, descartando los demás. Dentro de cada conglomerado existe una variación importante, pero los distintos conglomerados son parecidos. Requiere una muestra más grande, pero suele simplificar la recogida de muestras. Frecuentemente los conglomerados se aplican a zonas geográficas.


Muestreo mixto.
Cuando la población es compleja, cualquiera de los métodos descritos puede ser difícil de aplicar, en estos casos se aplica un muestreo mixto que combina dos o más de los anteriores sobre distintas unidades de la encuesta.

Ejemplo: se pretende determinar la prevalencia de una determinada infección en una
comarca: se dividen las explotaciones en tres grupos en función de su tamaño y se realiza un muestreo estratificado, en las granjas que forman la muestra se realiza un muestreo sistemático para elegir los individuos que se analizarán.

Muestreo aleatorio estratificado.

Se divide la población en grupos en función de un carácter determinado y después se muestrea cada grupo aleatoriamente, para obtener la parte proporcional de la muestra. Este método se aplica para evitar que por azar algún grupo de animales este menos representado que los otros. El muestreo estratificado tiene interés cuando la característica en cuestión puede estar relacionada con la variable que queremos estudiar. Cuando se realiza un muestreo cuya unidad sean las granjas, la estratificación se aplica frecuentemente en relación al tamaño de granja o a la aptitud de los animales, ya que muchas enfermedades presentan prevalecias diferentes en función del tamaño de la granja o a si se trata por ejemplo de razas de aptitud lechera o cárnica. Si la unidad son los animales, se suele estratificar en función de la edad ya que ésta suele influir en muchas enfermedades.

Ejemplo: La probabilidad de que una oveja esté infectada de Medí está directamente relacionada con la edad. En el ejemplo anterior, la explotación tiene el 44% de los animales de menos de 2 años, el 28% de 3-4 años, el 18% de 5-6 y el 10% son animales de más de seis años: el 44% de los 61 animales de la muestra (27 animales) se tomará al azar. Tipos de muestreo entre los de 1-2 años, el 28% entre los de 3-4 años y así sucesivamente (17, 11 y 6 animales de los otros tres grupos). Este método evita que por casualidad (por azar) se tomen más individuos de un grupo que de los demás y esto pueda condicionar el resultado.

Muestreo sistemático.

En este caso se elige el primer individuo al azar y el resto viene condicionado por aquél. Este método es muy simple de aplicar en la práctica y tiene la ventaja de que no hace falta disponer de un marco de encuesta elaborado. Puede aplicarse en la mayoría de las situaciones, la única precaución que debe tenerse en cuenta es comprobar que la característica que estudiamos no tenga una periodicidad que coincida con la del muestreo (por ejemplo elegir un día de la semana para tomar muestras en un matadero,
ya que muchos ganaderos suelen sacrificar un día determinado).

Ejemplo: En el caso anterior debemos tomar uno de cada cuatro animales (250/61); en vez de tomar 61 números aleatorios tomamos sólo uno (entre el uno y el cuatro), por ejemplo el número 3, de modo que tomaremos la oveja número 3, y a continuación cada cuarto animal (la 7, la 11, la 15 y así sucesivamente hasta llegar a la 247).