






























Prepara tus exámenes y mejora tus resultados gracias a la gran cantidad de recursos disponibles en Docsity
Gana puntos ayudando a otros estudiantes o consíguelos activando un Plan Premium
Prepara tus exámenes
Prepara tus exámenes y mejora tus resultados gracias a la gran cantidad de recursos disponibles en Docsity
Prepara tus exámenes con los documentos que comparten otros estudiantes como tú en Docsity
Los mejores documentos en venta realizados por estudiantes que han terminado sus estudios
Estudia con lecciones y exámenes resueltos basados en los programas académicos de las mejores universidades
Responde a preguntas de exámenes reales y pon a prueba tu preparación
Consigue puntos base para descargar
Gana puntos ayudando a otros estudiantes o consíguelos activando un Plan Premium
Comunidad
Pide ayuda a la comunidad y resuelve tus dudas de estudio
Descubre las mejores universidades de tu país según los usuarios de Docsity
Ebooks gratuitos
Descarga nuestras guías gratuitas sobre técnicas de estudio, métodos para controlar la ansiedad y consejos para la tesis preparadas por los tutores de Docsity
Conceptos básicos de inferencia bayesiana
Tipo: Guías, Proyectos, Investigaciones
1 / 38
Esta página no es visible en la vista previa
¡No te pierdas las partes importantes!
7.1 Introducción 1
Los procedimientos bayesianos se están volviendo cada vez más populares en la construcción de modelos estadísticos para problemas del mundo real. En los últimos años, los métodos estadísticos bayesianos se han utilizado cada vez más en campos científicos que van desde la arqueología hasta la informática. La inferencia bayesiana es un método de análisis que combina la información recogida de los datos experimentales con el conocimiento que uno tiene antes de realizar el experimento. Los métodos bayesiano y clásico (frecuentista) toman básicamente diferentes perspectivas hacia la inferencia estadística. En este enfoque de las estadísticas, las incertidumbres son expresadas en términos de probabilidades. En el enfoque bayesiano, combinamos cualquier nueva información que está disponible con la información previa que tenemos, para formar las bases para el procedimiento estadístico. El enfoque clásico de la inferencia estadística que hemos estudiado hasta ahora se basa únicamente en la muestra aleatoria. Es decir, si una probabilidad depende de un conjunto de parámetros θ , el enfoque clásico hace inferencias sobre θ únicamente sobre la base de una muestra X 1 ,... , Xn. Este enfoque de la inferencia se basa en el concepto de una distribución de muestras. Para interpretar correctamente los procedimientos inferenciales tradicionales, es necesario comprender plenamente el concepto de muestreo distribución. En este enfoque, analizamos sólo un conjunto de valores de muestra. Sin embargo, tenemos que imaginar lo que podría pasar si sacáramos un gran número de muestras al azar de la población. Por ejemplo, considere una muestra normal con varianza conocida. Hemos visto que un intervalo de confianza del 95 % para la media de la población μ viene dado por el intervalo aleatorio ( X ¯ − 1 , 96 σ /
n, X ¯ + 1 , 96 σ /
n ). Esto significa que cuando las muestras se toman repetidamente de la población, al menos el 95 % de los intervalos aleatorios contienen la verdadera media μ. El enfoque inferencial clásico no utiliza ninguna de las informaciones anteriores que podamos tener como resultado de, por ejemplo, nuestra familiaridad con el problema, o información de estudios anteriores. Los científicos e ingenieros se enfrentan al problema que normalmente sólo hay un único conjunto de datos, y que necesitan determinar el valor del parámetro en el momento en que se toman los datos. La pregunta básica entonces
es: “¿Cuál es la mejor estimación de un parámetro que uno puede hacer de los datos usando la información previa?” Los enfoques estadísticos que utilizan conocimientos previos, posiblemente subjetivos, además de la evidencia de la muestra para estimar los parámetros de la población se conocen como Métodos bayesianos. Las estadísticas bayesianas proporcionan un método natural para actualizar la incertidumbre a la luz de evidencia. Se supone que los datos proceden de una distribución que pertenece a una familia paramétrica conocida. Sin embargo, la perspectiva bayesiana hacia la inferencia se basa en la interpretación subjetiva de la probabilidad. La probabilidad subjetiva es una forma de establecer nuestra creencia en la validez de un evento aleatorio. El siguiente ejemplo ilustrará la idea. Supongamos que estamos interesados en la proporción de todos los estudiantes de pregrado en una universidad en particular que aceptan trabajos fuera del campus durante al menos 20 horas a la semana. Supongamos que seleccionamos al azar 50 estudiantes de esta universidad y obtenemos la proporción de estudiantes que tienen trabajos fuera del campus durante al menos 20 horas a la semana. Supongamos que la proporción de la muestra es 30 / 50 = 0 , 6. En un enfoque frecuentista, todos los procedimientos inferenciales, como la estimación puntual, la estimación de intervalos o las pruebas de hipótesis, se basan en la distribución muestral. Es decir, a pesar de que estamos analizando un solo conjunto de datos, es necesario tener el conocimiento de la media, la desviación estándar y la forma de esta distribución muestral de la proporción para la correcta interpretación en los procedimientos inferenciales clásicos. En la interpretación subjetiva de la probabilidad, la proporción de estudiantes universitarios que se supone trabajan fuera del campus durante al menos 20 horas a la semana es desconocido y al azar. Se usa una distribución de probabilidad, llamada a priori , que representa nuestro conocimiento o la creencia acerca de la ubicación de esta proporción antes de que se recopilen los datos. Por ejemplo, la oficina de colocación de la universidad ya puede tener una opinión sobre esta proporción basado en su experiencia anterior. El enfoque clásico ignora esta conocimiento previo, mientras que el enfoque bayesiano incorpora este conocimiento con los datos observados para actualizar el valor de esta proporción. Es decir, después de que los datos se recogen nuestra opinión sobre la proporción puede cambiar. Usando la regla de Bayes, calculamos la distribución de probabilidad posterior para la proporción, basada en nuestra creencia previa y la evidencia de los datos. Todas nuestras inferencias sobre la proporción se realizan calculando las estadísticas adecuadas de la distribución posterior. El enfoque bayesiano busca fusionar de manera óptima la información de dos fuentes: (1) el conocimiento que se tiene de la teoría o de la opinión formada al principio de la investigación en la forma de una a priori, y (2) la información contenida en los datos en forma de funciones de verosimilitud. Básicamente, la distribución a priori representa nuestra creencia inicial, mientras que la información de los datos se expresa mediante la función de verosimilitud. Combinando la distribución a priori y la función de verosimilitud, podemos obtener la distribución posterior. Esto expresa nuestra incertidumbre revisada a la luz de los datos. La principal diferencia entre el enfoque bayesiano y el enfoque clásico es que en el entorno bayesiano, el parámetro se ve como una variable aleatoria, mientras que en el enfoque clásico el parámetro se considera fijo pero desconocido. El parámetro es aleatorio en el sentido de que podemos asignarle una distribución de probabilidad subjetiva que describe nuestra confianza en el valor real del parámetro. Algunas de las razones para utilizar los enfoques bayesianos son las siguientes:
situación. Supongamos que tenemos una muestra aleatoria X = ( X 1 ,... , Xn ) de tamaño n de f ( x | θ ). Entonces la distribución posterior de θ la podemos escribir como
f ( θ | X 1 ,... , Xn ) = f^ ( θ, X^1 ,... , Xn ) f ( X 1 ,... , Xn )
= L ( X^1 ,... , Xn | θ ) π ( θ ) f ( X 1 ,... , Xn )
donde L ( X 1 ,... , Xn | θ ) es la función de verosimilitud. Representamos por C todos los términos que no envuelven a θ (en este caso, C = 1 /f ( X 1 ,... , Xn )), tenemos
f ( θ | X 1 ,... , Xn ) = CL ( X 1 ,... , Xn | θ ) π ( θ ). Para valores muestrales específicos X 1 = x 1 , X 2 = x 2 ,... , Xn = xn , la ecuación resultante la podemos escribir en forma compacta como
f ( θ | x ) ∝ f ( x | θ ) π ( θ ), donde x = ( x 1 , x 2 ,... , xn ). Esto los podemos expresar como
(distribución posterior) ∝ (distribución a priori) × (verosimilitud). El resultado completo incluyendo la normalización, la podemos escribir como
(distribución posterior) ∝ [(distribución a priori) × (verosimilitud).] /
prior × verosimilitud
donde el denominador es un factor normalizador fijo obtenido por la verosimilitud acumulada sobre todos los valores anteriores posibles. Ahora podemos dar la definición formal
Definición 7. La distribución de θ , dados los datos x 1 , x 2 ,... , xn se llama distribución posterior, la cual está dada por
π ( θ | x ) =
f ( x | θ ) π ( θ ) g ( x )
donde g ( x ) es la distribución marginal de X. El estimador bayesiano del parámetro θ es la media posterior.
La distribución marginal g ( x ) la podemos calcular usando la fórmula
g ( x ) =
∫ θ^ f^ ( x | θ ) π ( θ ) ,^ en el caso discreto ∞ −∞ f^ ( x | θ ) π ( θ ) dθ,^ en el caso continuo, donde π ( θ ) es la distribución a priori de θ. Aquí la distribución marginal g ( x ) se llama también la distribución predictiva de X , porque representa nuestras predicciones actuales de los valores de X teniendo en cuenta tanto la incertidumbre sobre el valor de θ como la incertidumbre residual sobre la variable aleatoria X cuando se conoce θ. En el entorno bayesiano, toda la información sobre θ de los datos observados y del conocimiento previo está contenida en la distribución posterior, π ( θ | x ). En casi todos los casos prácticos, debido a que estamos combinando nuestra información previa con la información contenida en los datos, la distribución posterior proporciona una estimación más refinada de θ que la a priori. Todas las inferencias de los métodos bayesianos se basan en la distribución de probabilidad posterior del
7.2 Estimación puntual bayesiana 5
parámetro θ. Usando la explicación dada más adelante, tomaremos la estimación bayesiana de un parámetro como la media posterior. Además, consideremos un problema de inferencia estadística bayesiana en el que el parámetro es una proporción poblacional. En los ensayos de Bernoulli, la población contiene dos tipos de eventos llamados “éxitos” y “fracasos”. La proporción de éxitos en la población la denotaremos con θ. Tomamos una muestra aleatoria de tamaño n de la población y observamos s éxitos y f fracasos. El objetivo es aprender sobre la proporción desconocida θ sobre la base de estos datos. En esta situación, un modelo está representado por la proporción poblacional θ. Nosotros no conocer su valor. En el Tema 2, hemos visto que podríamos usar la estimación de máxima verosimilitud (EMV) para estimar θ , que no utilizó ningún conocimiento previo que podamos tener acerca de θ. Nótese que la estimación de máxima verosimilitud es, en términos generales, equivalente a encontrar el modo de la verosimilitud. En un ambiente bayesiano, representamos nuestras creencias sobre la ubicación de θ en términos de una distribución de probabilidad a priori. Introducimos la proporción utilizando una distribución a priori discreta para θ. Podemos construir una distribución a priori mediante especificar una lista de valores posibles para la proporción θ y, a continuación, asignar probabilidades a estos valores que reflejan nuestro conocimiento sobre θ. Entonces podemos calcular las probabilidades posteriores usando el teorema de Bayes. El siguiente ejemplo ilustra este concepto.
Se cree que las plantas de fertilización cruzada producen descendientes más altos que las plantas autofertilizadas. Para obtener una estimación de la proporción de plantas fertilizadas cruzadas que son más altas, un experimentador observa una muestra aleatoria de 15 pares de plantas que son exactamente de la misma edad. Cada par se cultiva en las mismas condiciones con algunos fertilizados cruzados y otros autofecundados. Basándose en la experiencia previa, el experimentador cree que los siguientes son valores posibles de θ y que la probabilidad previa para cada valor de θ (peso anterior) es π ( θ ).
θ : 0.80 0.82 0.84 0.86 0.88 0. π ( θ ): 0.13 0.15 0.22 0.25 0.15 0.
Del experimento, se observa que en 13 de 15 pares, el fertilizado cruzado es más alto. Cree una tabla con columnas de la priori π ( θ ), la verosimilitud de L ( X 1 , X 2 ,... , Xn | θ ) para diferentes valores de θ y para la muestra dada , la verosimilitud de tiempos anteriores y la probabilidad posterior de θ. Basado en las probabilidades posteriores, ¿qué valor de θ tiene el mayor apoyo? También, encuentra E( θ ) basado en las probabilidades posteriores.
Solución
La verosimilitud obtenida de 13 de 15 tallos de plantas para distintos valores a priori de π se obtienen usando la distribución binomial
θ^13 (1 − θ )^2. Por ejemplo, si el valor previo de θ es 0.80, entonces la verosimilitud de θ dado en la muestra es
f ( x | θ ) =
En el Cuadro 7.2 obtenemos
(priori × verosimilitud) = 0 , 27217. Por consiguiente, el valor
7.2 Estimación puntual bayesiana 7
Figura 7.1: Distribución a priori discreta para la proporción p del Ejemplo 7.
podríamos seleccionar una priori no informativa , la cual nos habría asignado igual probabilidad a priori de 1/6 para cada uno de los posibles valores de θ. Una probabilidad priori no informativa (también llamado plana o priori uniforme ) proporciona poca o ninguna información. Basado en la situación, las priori no informativas pueden ser bastante dispersas, pueden evitar sólo valores imposibles del parámetro, y a menudo dan resultados similares a los obtenidos por los métodos clásicos frecuentistas.
Repita el Ejemplo 7.1, usando una priori no informativa, π ( θ ) = 1 / 6, para cada valor de θ
Solución
Aquí π ( θ ) = 1 / 6 para cada valor de θ , como se puede ver en el Cuadro 7.
Valores Prob. priori Verosimilitud Verosimilitud Prob posterior previos de θ π ( θ ) de θ previa de θ 0.80 1/6 0.2309 3 , 8483 × 10 −^2 0. 0.82 1/6 0.2578 4 , 2967 × 10 −^2 0. 0.84 1/6 0.2787 0 , 04645 0. 0.86 1/6 0.2897 4 , 8283 × 10 −^2 0. 0.88 1/6 0.2870 4 , 7833 × 10 −^2 0. 0.90 1/6 0.2669 4 , 4483 × 10 −^2 0. Total 0.2685 1.
Cuadro 7.2: Resumen de las probabilidades a priori y posterior. con una priori no informativa El estimador bayesiano para la priori no informativa es
E( θ ) = (0 , 80)(0 , 14333) + (0 , 82)(0 , 16003) + (0 , 84)(0 , 173) +(0 , 86)(0 , 17982) + (0 , 88)(0 , 17815) + (0 , 90)(0 , 16567) = 0 , 85173_._
Debe tenerse en cuenta que debido a que la elección de la priori en el Ejemplo 7.2 es sólo ligeramente informativo, no vemos mucha diferencia en los valores de las estimaciones bayesianas. En general, es difícil construir una priori aceptable, ya que la mayoría de las veces tiene que basarse en experiencias subjetivas. Por lo tanto, es relativamente fácil usar una priori “no informativo”. Por ejemplo, si no tenemos información sobre los valores de proporción θ , entonces un tipo de priori estándar “no informativa” es tomar la proporción θ como uno de los valores igualmente espaciados 0 , 0 , 1 , 0 , 2 ,... , 0 , 9 , 1. Podemos asignar para cada valor de θ la misma probabilidad, π ( θ ) = 1 / 11. Esta priori es conveniente y puede funcionar razonablemente bien, cuando no tenemos muchos datos. Es bastante fácil construir una priori cuando existe una considerable información previa sobre la proporción de interés. La distribución posterior nos da información relativa a la verosimilitud de θ dado los datos muestrales. Entonces la pregunta es cómo usar esa información para estimar θ. En lugar de tener un probabilidad explícita, la priori puede ser dada a traves de una distribución de probabilidad asumida. Ilustraremos los cálculos envueltos para hallar la distribución posterior con el siguiente ejemplo.
Sea X una variable aleatoria binomial con parámetros n y p. Supongamos que la distribución a priori de p es uniforme en [0 , 1]. Hallar la distribución posterior f ( p | x ).
Solución
Dado que X es binomial, la función de verosimilitud está dada por
f ( x | p ) =
n x
px (1 − x ) n − x.
Como p es uniforme en [0 , 1], tenemos π ( p ) = 1 , 0 ≤ p ≤ 1. Entonces la distribución posterior está dada por f ( p | x ) ∝ f ( x | p ) π ( p ) =
n x
px (1 − x ) n − x, x = 0 , 1 ,... , n,
la cual es la misma que la función de verosimilitud.
Note que en el ejemplo anterior, la forma de la función de probabilidad tanto en f ( x | p ) como en f ( p | x ) es la misma, sin embargo, en f ( p | x ), p se considera aleatorio y en f ( x | p ), p no es aleatorio. Esta forma particular de f ( p | x ) también se llama distribución beta-binomial para p con parámetros α = x + 1 y β = n − x + 1. Este ejemplo ilustra que si la priori es no informativo (uniforme), entonces la posterior es esencialmente la función de verosimilitud. En el caso donde la priori y la posterior son de la misma forma, la llamamos priori conjugada. La inferencia bayesiana se simplifica cuando la densidad a priori tiene la misma forma que la verosimilitud (que es el caso de la priori conjugada) o cuando los datos son una muestra independiente de una familia exponencial (como una normal, Poisson o binomial). Las prioris bayesianas actúan como si se añadieran pseudo observaciones a los datos. El siguiente ejemplo demuestra el método para hallar la distribución posterior para una variable aleatoria continua.
σ (^) p^2 + σ^2 σ^2 σ (^) p^2
μ −
σ^2 σ (^) p^2 + σ^2
μp +
σ (^) p^2 σ (^) p^2 + σ^2
x
2
donde
K ˜ =^1 2
σ (^) p^2 + σ^2 σ^2 σ (^) p^2
^ x
2 σ^2
μ^2 p σ (^) p^2
σ (^) p^2 σ (^) p^2 + σ^2
x +
σ^2 σ (^) p^2 + σ^2
μp
De la derivación anterior, obtenemos
f ( μ | x ) = Ke
− 12^ σ^ p^2 + σ^^2 σ^2 σ^2 p
^ x
2 σ^2
μ^2 p σ (^) p^2
σ (^) p^2 σ (^) p^2 + σ^2
x +
σ^2 σ (^) p^2 + σ^2
μp
donde K no contiene a μ. Esto implica que la densidad posterior f ( μ | x ) es la función de distribución de una variable aleatoria normal com media (^)
σ (^) p^2 σ (^) p^2 + σ^2
x +
σ^2 σ (^) p^2 + σ^2
μp
y varianza σ (^) p^2 + σ^2 σ^2 σ (^) p^2
Si hacemos τp = (^) σ^1 (^) p 2 y τ = (^) σ^1 2 , entonces la densidad posterior la podemos reescribir como un distribución normal con media (^) τp^1 + τ ( τpμp + τx ) y varianza (^) τp^1 + τ. Como un ejemplo, supongamos que μp = 100 , σp = 15 y σ = 10 , x = 115. Entonces f ( μ | x ) es la distribución de una normal con
Media =
y Varianza =
Instrucciones en R
mup = sigmp = sigma = x=
post=rnorm (1000 ,(( sigma ^2*mup/(sigmp ^2+ sigma ^2))
7.2 Estimación puntual bayesiana 11
hist(post , col="lightseagreen")
Figura 7.2: Histograma de la posteriori del Ejemplo 7.
7.2.1 Criterios para encontrar la estimación bayesiana
En el enfoque bayesiano para la estimación de parámetros, utilizamos tanto las observaciones previas como las observaciones. Esto conduce a una estrategia de estimación basada en la distribu- ción posterior. ¿Cómo sabemos que la estimación así obtenida es “buena”? Para evaluar la calidad de los estimadores probables, utilizamos una función de pérdida L ( θ, a ) que mide la pérdida incurrida utilizando una estimación de θ. Aquí θ es el parámetro que se está estimando (en problemas del mundo real no se conoce), y a es la estimación de θ. Luego se elige la estimación “óptima” o “mejor” estimado a = θ ˆ para minimizar la pérdida esperada E[ L ( θ, θ ˆ)], donde la esperanza se toma sobre θ con respecto a la distribución posterior f ( θ | x ). Aquí mencionamos dos tipos de funciones de pérdi- da comúnmente utilizadas: funciones de pérdida cuadráticas y error absoluto y las estimaciones resultantes.
E[ L ( θ, a )] =
L ( θ, a ) f ( θ | x 1 ,... , xn ) dθ
( a − θ )^2 f ( θ | x 1 ,... , xn ) dθ.
Diferenciando con respecto a a e igualando a cero, obtenemos
( a − θ ) f ( θ | x 1 ,... , xn ) dθ = 0
Esto implica que a =
θf ( θ | x 1 ,... , xn ) dθ.
7.2 Estimación puntual bayesiana 13
a su capacidad analítica. Ahora derivaremos las estimaciones bayesianos puntuales para algunas distribuciones específicas. Mientras que las prioris uniformes son útiles en las situaciones no informativas, la familia beta de distribuciones es una de las prioris informativas más comunes. Las distribuciones en la familia beta toman valores en el intervalo (0 , 1). Recordemos que si X ∼ Beta ( α, β ), entonces la función de distribución de X viene dada por
f ( x ) =
Γ ( α + β ) Γ ( α )Γ ( β ) x
α − (^1) (1 − x ) β − (^1) , si 0 ≤ x ≤ 1
0 , en otro caso, α > 0 , β > 0_._
La función de distribución la podemos escribir como
f ( x ) = Cxα −^1 (1 − β ) β −^1 ∝ xα −^1 (1 − β ) β −^1 ,
donde C = (^) ΓΓ (^ ( αα )+Γ β ( β )). También conocemos
α α + β y^ V ar ( X ) =^
αβ ( α + β )^2 ( α + β + 1)
Cuando usamos la beta priori, tomaremos el número de éxitos como α − 1 y el número de fracasos como β − 1.
Figura 7.3: Procedimiento para la estimación bayesiana de parámetros
Sea X 1 ,... , Xn una muestra de una distribución geométrica con parámetro p , 0 ≤ p ≤ 1. Supongamos que la distribución priori de p es una beta con α = 4 y β = 4.
Solución
Γ (8) Γ (4)Γ (4)
p^3 (1 − p )^3 = 140 p^3 (1 − p )^3_._
Dado que las variables aleatorias Xi tienen distribución geométrica con parámetro p , la verosimilitud está dada por
L ( X 1 ,... , Xn | θ ) =
∏^ n
i =
p (1 − p ) xi^ −^1 = pn (1 − p )
∑ n i =1 xi^ − n.
El producto de la función de verosimilitud y la priori está dado por
pn (1 − p )
∑ n i =1 xi^ − n [140 p^3 (1 − p )^3 ] = 140 pn +3(1 − p )
∑ n i =1 xi^ − n.
Dado que (posterior de p ) ∝ (priori de p )(verosimilitud ), reescribiendo la constante de normalización en la ecuación (7.1) como C y haciendo C 1 = 140 C , la distribución posterior es
Beta
n + 4 ,
∑^ n
i =
xi − n + 4
donde α − 1 = n + 3 y β − 1 =
∑ n i =1 xi^ −^ n^ + 3.
n + 4 ,
∑ n i =1 xi^ −^ n^ + 4
es
n + 4 [
∑ n i =1 xi^ −^ n^ + 4] + ( n^ + 4)
∑ n^ + 4 n i =1 xi^ + 8^
Note que para n grande, el estimador bayesiano es aproximadamente n/
∑ n i =1 xi^ , el cual es el EMV de p. En general, para una variable aleatoria Bernoulli con probabilidad de éxito desconocida p en [0 , 1], la priori conjugada usual es la distribución beta, donde el parámetro de la distribución beta lo escogemos de modo que refleje cualquier información previa que tengamos.
Supongamos que estamos lanzando una moneda sesgada, donde la probabilidad de caras p podría ser cualquier valor entre 0 y 1. Dada una sucesión muestral de lanzamientos x 1 ,... , xn , queremos estimar P ( H ) = p. Podemos tener dos fuentes de información: nuestra creencia previa, que expresaremos como una distribución beta, y los datos, que podrían provenir de conteos de caras x en n = 20 lanzamientos independientes de la moneda, digamos x = 13. Supongamos que en seis lanzamientos anteriores, observamos tres caras y tres sellos, lo que nos lleva a creer que el valor de p está cerca de 0,5. Obtenga la distribución posterior de p.
Instrucciones en R
#----
p<-seq (0 ,1 ,0.01)
beta.prior <-dbeta(p,4,4)
beta.post <-dbeta(p,17 ,11)
plot(p,beta.prior ,type="l",col="blue", xlab = "p",ylab = expression(pi(X)),ylim = c(0 ,4.5)) lines(p,beta.post ,col="red") legend("topleft", c("priori","posterior"), cex=0.8, lty =1:1,col=c("blue","red"))
Figura 7.4: Distribuciones priori y posterior para la proporción de lanzamiento de una moneda del Ejemplo 7.
Dado que Beta (1 , 1) es una uniforme en [0 , 1], el método del ejemplo anterior se puede utilizar para las priori no informativas. El método también se puede utilizar en muchas aplicaciones. Por ejemplo, supongamos que p representa la proporción de individuos infectados en una población, y x es el número de individuos infectados en una muestra de tamaño n. Luego, con una priori no informativa, podemos mostrar que la posterior de p es Beta ( x + 1 , nx + 1). Este tipo de entorno puede utilizarse para estimar la verdadera proporción de individuos infectados en la población.
7.2 Estimación puntual bayesiana 17
Supongamos que durante el último millón de días hemos estado prediciendo si el sol saldrá a la mañana siguiente o no. Cada tarde decimos que el sol saldrá a la mañana siguiente ( R ˆ), y tuvimos razón ( R ) todos estos días. Supongamos que en las 10^6 tardes predijimos que el sol saldrá al día siguiente. ¿Cuál es la probabilidad de que el sol salga al día siguiente?
Solución
El problema se puede plantear en la forma de la tabla siguiente 1 2 · · · 106 106 + 1 R ˆ R ˆ · · · R ˆ R ˆ R R · · · R R P ( R | R ˆ) = 1 si usamos el método de estimación frecuentista (por ejemplo EMV). Consideremos ahora el método de Bayes. Supongamos que la priori es uniforme en [0 , 1]. Esto es,
π ( p ) =
1 , si;0 ≤ p ≤ 1 0 , en otro caso.
Supongamos que predecimos n veces y tenemos x éxitos. Entonces
f ( x | p ) =
n x
px (1 − p ) n − x.
La probabilidad conjunta está dada por
f ( x, p ) = f ( x | p ) π ( p )
=
n x
px (1 − p ) n − x, x = 0 , 1 ,... , n ; 0 ≤ p ≤ 1_._
Por el teorema de Bayes, la probabilidad posterior π ( p | x ) es
π ( p | x ) =
f ( x | p ) π ( p ) ∫ (^1) 0 f^ ( x | p ) π ( p ) dp = K ( n, x ) px (1 − p ) n − x, 0 ≤ p ≤ 1 , 0 ≤ x ≤ n,
la cual es una distribución beta. Recordemos que la densidad beta está dada por
f ( y ) =
B ( α, β ) y
α (^) (1 − y ) β − 1
y E( y ) = (^) αα + β. Entonces
E[ π ( p | x )] = x^ + 1 ( x + 1) + ( n − x ) + 1
= x^ + 1 n + 2
En nuestro caso, x = 10^6 , n = 10^6 , lo cual implica que la media posterior está dada por
p ˆ β =
7.2 Estimación puntual bayesiana 19
Por lo tanto, el estimador puntual de μ es la media posterior 10.167. La Figura 7. muestra las densidades priori y posterior de μ.
Instrucciones en R
#----
x.nor <-seq (4 ,16 ,0.01)
N.prior <-dnorm(x.nor ,10 ,2) N.post <-dnorm(x.nor ,10.167 ,0.66667)
plot(x.nor ,N.prior ,type="l",col="blue", xlab = expression(mu), ylab = expression(pi(mu)), ylim = c(0 ,0.6)) lines(x.nor ,N.post ,col="red") legend("topleft", c("priori","posterior"), cex=0.8, lty =1:1,col=c("blue","red"))
Figura 7.5: Densidades priori y posterior de μ del Ejemplo 7.
A veces, la inversa de la varianza en la distribución normal se llama la precisión de la distribución normal y se denota τ = 1 /σ^2. También note que en la parte 1) del ejemplo anterior (Ejemplo 7.8), si la varianza de la priori σ (^) 02 → ∞, entonces la priori se aplana ( π ( μ ) ∝ c ) a una constante. Esto básicamente equivale a decir que la información previa sobre μ disminuye, es decir, todas las μ son igualmente probables. Esto corresponde a una priori no informativa. También, en este caso como σ (^) 02 → ∞, entonces σ (^) 12 → σ^
2 n y^ μ^1 →^ x ¯. Por lo tanto, en el límite (es decir, en las prioris no informativas), la posterior f ( μ | x ) tendrá distribución N ( x, σ ¯^2 /n ), la cual es exactamente la misma
inferencia como en la estadística clásica. En los problemas de inferencia bayesiana, una de las preguntas es, que tendrá relativamente más influencia, ¿la priori o la verosimilitud? Como observamos una gran cantidad de datos, puede demostrarse que la distribución posterior está determinada casi exclusivamente por los datos. Es decir, asintóticamente, los datos observados tendrán una mayor influencia en comparación con la elección de la priori, y por lo tanto la priori será irrelevante. Por lo tanto, podemos hacer las siguientes observaciones generales. Si la priori es no informativa y tenemos una gran cantidad de datos entonces podemos esperar que la verosimilitud tenga una mayor influencia. Mientras que, si tenemos un pequeño conjunto de datos y una priori informativa, entonces la priori tendrá una mayor influencia en la distribución posterior. Los estimadores bayesianos son más complicados de calcular que el cálculo de las estimaciones de máxima verosimilitud en el caso simple. Sin embargo, en entornos complejos, las estadísticas bayesianas son a menudo relativamente más fáciles de calcular. Uno de los problemas en el uso del análisis bayesiano es la elección de una priori apropiada. No hay reglas específicas disponibles para este propósito. Por ejemplo, las siguientes prioris se usan comúnmente en la literatura. Algunas prioris comunes Si los datos están en [0 , 1], podríamos usar una distribución uniforme o una beta. Si los datos están en [0 , ∞), usaremos distribuciones normal (con μ relativamente grande), gamma o log-normal. Si los datos están en (−∞ , ∞), con frecuencia usaremos distribuciones normales o t.
En este apartado queremos estudiar la pregunta: “¿Podemos construir un intervalo en el que estamos seguros de que el intervalo contiene el valor verdadero desconocido de θ ?” Hemos visto cómo en muchas situaciones puede ser preferible utilizar una estimación de intervalos en lugar de una estimación puntual para un parámetro de población θ. Estos intervalos en las estadísticas clásicas se llamaban intervalos de confianza. Podemos extender el concepto de estimación de intervalos a un entorno bayesiano. El análogo bayesiano de un intervalo de confianza se denomina intervalo creíble y se define como sigue.
Definición 7. A 100(1 − α ) % intervalo creible para θ es un intervalo ( a, b ) tal que
p ( a ≤ θ ≤ b | x 1 ,... , xn ) ≥ (1 − α ) (7.4)
Aquí α es dada como un número positivo entre 0 y 1, y x 1 ,... , xn son los valores muestrales.
Nótese que leemos esta definición al revés, es decir, estamos al menos (1 − α )100 % seguros de que el verdadero valor de θ está entre a y b , dada la información de la muestra.
Debido a que la distribución condicional de θ dada en X 1 ,... , Xn es en realidad una distribución de probabilidad, tiene sentido hablar de la probabilidad de que θ esté en el intervalo ( a, b ). Una vez observados los datos, el intervalo creíble se fija mientras que θ es aleatorio. Esto contrasta con el