Docsity
Docsity

Prepara tus exámenes
Prepara tus exámenes

Prepara tus exámenes y mejora tus resultados gracias a la gran cantidad de recursos disponibles en Docsity


Consigue puntos base para descargar
Consigue puntos base para descargar

Gana puntos ayudando a otros estudiantes o consíguelos activando un Plan Premium


Orientación Universidad
Orientación Universidad

Conceptos básicos de inferencia bayesiana, Guías, Proyectos, Investigaciones de Estadística Matemática

Conceptos básicos de inferencia bayesiana

Tipo: Guías, Proyectos, Investigaciones

2018/2019

Subido el 21/11/2019

jose-benito-hernandez-chaudary
jose-benito-hernandez-chaudary 🇲🇽

4.8

(8)

7 documentos

1 / 38

Toggle sidebar

Esta página no es visible en la vista previa

¡No te pierdas las partes importantes!

bg1
7.1 Introducción 1
José Benito Hernández C.
Guía de Estadística
Tema 7
Inferencia Bayesiana
7.1 Introducción
Los procedimientos bayesianos se están volviendo cada vez más populares en la construcción de
modelos estadísticos para problemas del mundo real. En los últimos años, los métodos estadísticos
bayesianos se han utilizado cada vez más en campos científicos que van desde la arqueología hasta la
informática. La inferencia bayesiana es un método de análisis que combina la información recogida
de los datos experimentales con el conocimiento que uno tiene antes de realizar el experimento.
Los métodos bayesiano y clásico (frecuentista) toman básicamente diferentes perspectivas hacia
la inferencia estadística. En este enfoque de las estadísticas, las incertidumbres son expresadas en
términos de probabilidades. En el enfoque bayesiano, combinamos cualquier nueva información que
está disponible con la información previa que tenemos, para formar las bases para el procedimiento
estadístico. El enfoque clásico de la inferencia estadística que hemos estudiado hasta ahora se
basa únicamente en la muestra aleatoria. Es decir, si una probabilidad depende de un conjunto de
parámetros
θ
, el enfoque clásico hace inferencias sobre
θ
únicamente sobre la base de una muestra
X1,...,Xn
. Este enfoque de la inferencia se basa en el concepto de una distribución de muestras. Para
interpretar correctamente los procedimientos inferenciales tradicionales, es necesario comprender
plenamente el concepto de muestreo distribución. En este enfoque, analizamos sólo un conjunto
de valores de muestra. Sin embargo, tenemos que imaginar lo que podría pasar si sacáramos un
gran número de muestras al azar de la población. Por ejemplo, considere una muestra normal
con varianza conocida. Hemos visto que un intervalo de confianza del 95% para la media de la
población
µ
viene dado por el intervalo aleatorio (
¯
X
1
,
96
σ/n, ¯
X
+ 1
,
96
σ/n
). Esto significa que
cuando las muestras se toman repetidamente de la población, al menos el 95% de los intervalos
aleatorios contienen la verdadera media
µ
. El enfoque inferencial clásico no utiliza ninguna de las
informaciones anteriores que podamos tener como resultado de, por ejemplo, nuestra familiaridad
con el problema, o información de estudios anteriores. Los científicos e ingenieros se enfrentan
al problema que normalmente sólo hay un único conjunto de datos, y que necesitan determinar
el valor del parámetro en el momento en que se toman los datos. La pregunta básica entonces
pf3
pf4
pf5
pf8
pf9
pfa
pfd
pfe
pff
pf12
pf13
pf14
pf15
pf16
pf17
pf18
pf19
pf1a
pf1b
pf1c
pf1d
pf1e
pf1f
pf20
pf21
pf22
pf23
pf24
pf25
pf26

Vista previa parcial del texto

¡Descarga Conceptos básicos de inferencia bayesiana y más Guías, Proyectos, Investigaciones en PDF de Estadística Matemática solo en Docsity!

7.1 Introducción 1

José Benito Hernández C.

Guía de Estadística

Tema 7

Inferencia Bayesiana

7.1 Introducción

Los procedimientos bayesianos se están volviendo cada vez más populares en la construcción de modelos estadísticos para problemas del mundo real. En los últimos años, los métodos estadísticos bayesianos se han utilizado cada vez más en campos científicos que van desde la arqueología hasta la informática. La inferencia bayesiana es un método de análisis que combina la información recogida de los datos experimentales con el conocimiento que uno tiene antes de realizar el experimento. Los métodos bayesiano y clásico (frecuentista) toman básicamente diferentes perspectivas hacia la inferencia estadística. En este enfoque de las estadísticas, las incertidumbres son expresadas en términos de probabilidades. En el enfoque bayesiano, combinamos cualquier nueva información que está disponible con la información previa que tenemos, para formar las bases para el procedimiento estadístico. El enfoque clásico de la inferencia estadística que hemos estudiado hasta ahora se basa únicamente en la muestra aleatoria. Es decir, si una probabilidad depende de un conjunto de parámetros θ , el enfoque clásico hace inferencias sobre θ únicamente sobre la base de una muestra X 1 ,... , Xn. Este enfoque de la inferencia se basa en el concepto de una distribución de muestras. Para interpretar correctamente los procedimientos inferenciales tradicionales, es necesario comprender plenamente el concepto de muestreo distribución. En este enfoque, analizamos sólo un conjunto de valores de muestra. Sin embargo, tenemos que imaginar lo que podría pasar si sacáramos un gran número de muestras al azar de la población. Por ejemplo, considere una muestra normal con varianza conocida. Hemos visto que un intervalo de confianza del 95 % para la media de la población μ viene dado por el intervalo aleatorio ( X ¯ − 1 , 96 σ /

n, X ¯ + 1 , 96 σ /

n ). Esto significa que cuando las muestras se toman repetidamente de la población, al menos el 95 % de los intervalos aleatorios contienen la verdadera media μ. El enfoque inferencial clásico no utiliza ninguna de las informaciones anteriores que podamos tener como resultado de, por ejemplo, nuestra familiaridad con el problema, o información de estudios anteriores. Los científicos e ingenieros se enfrentan al problema que normalmente sólo hay un único conjunto de datos, y que necesitan determinar el valor del parámetro en el momento en que se toman los datos. La pregunta básica entonces

es: “¿Cuál es la mejor estimación de un parámetro que uno puede hacer de los datos usando la información previa?” Los enfoques estadísticos que utilizan conocimientos previos, posiblemente subjetivos, además de la evidencia de la muestra para estimar los parámetros de la población se conocen como Métodos bayesianos. Las estadísticas bayesianas proporcionan un método natural para actualizar la incertidumbre a la luz de evidencia. Se supone que los datos proceden de una distribución que pertenece a una familia paramétrica conocida. Sin embargo, la perspectiva bayesiana hacia la inferencia se basa en la interpretación subjetiva de la probabilidad. La probabilidad subjetiva es una forma de establecer nuestra creencia en la validez de un evento aleatorio. El siguiente ejemplo ilustrará la idea. Supongamos que estamos interesados en la proporción de todos los estudiantes de pregrado en una universidad en particular que aceptan trabajos fuera del campus durante al menos 20 horas a la semana. Supongamos que seleccionamos al azar 50 estudiantes de esta universidad y obtenemos la proporción de estudiantes que tienen trabajos fuera del campus durante al menos 20 horas a la semana. Supongamos que la proporción de la muestra es 30 / 50 = 0 , 6. En un enfoque frecuentista, todos los procedimientos inferenciales, como la estimación puntual, la estimación de intervalos o las pruebas de hipótesis, se basan en la distribución muestral. Es decir, a pesar de que estamos analizando un solo conjunto de datos, es necesario tener el conocimiento de la media, la desviación estándar y la forma de esta distribución muestral de la proporción para la correcta interpretación en los procedimientos inferenciales clásicos. En la interpretación subjetiva de la probabilidad, la proporción de estudiantes universitarios que se supone trabajan fuera del campus durante al menos 20 horas a la semana es desconocido y al azar. Se usa una distribución de probabilidad, llamada a priori , que representa nuestro conocimiento o la creencia acerca de la ubicación de esta proporción antes de que se recopilen los datos. Por ejemplo, la oficina de colocación de la universidad ya puede tener una opinión sobre esta proporción basado en su experiencia anterior. El enfoque clásico ignora esta conocimiento previo, mientras que el enfoque bayesiano incorpora este conocimiento con los datos observados para actualizar el valor de esta proporción. Es decir, después de que los datos se recogen nuestra opinión sobre la proporción puede cambiar. Usando la regla de Bayes, calculamos la distribución de probabilidad posterior para la proporción, basada en nuestra creencia previa y la evidencia de los datos. Todas nuestras inferencias sobre la proporción se realizan calculando las estadísticas adecuadas de la distribución posterior. El enfoque bayesiano busca fusionar de manera óptima la información de dos fuentes: (1) el conocimiento que se tiene de la teoría o de la opinión formada al principio de la investigación en la forma de una a priori, y (2) la información contenida en los datos en forma de funciones de verosimilitud. Básicamente, la distribución a priori representa nuestra creencia inicial, mientras que la información de los datos se expresa mediante la función de verosimilitud. Combinando la distribución a priori y la función de verosimilitud, podemos obtener la distribución posterior. Esto expresa nuestra incertidumbre revisada a la luz de los datos. La principal diferencia entre el enfoque bayesiano y el enfoque clásico es que en el entorno bayesiano, el parámetro se ve como una variable aleatoria, mientras que en el enfoque clásico el parámetro se considera fijo pero desconocido. El parámetro es aleatorio en el sentido de que podemos asignarle una distribución de probabilidad subjetiva que describe nuestra confianza en el valor real del parámetro. Algunas de las razones para utilizar los enfoques bayesianos son las siguientes:

  1. La mayoría de las conclusiones inferenciales bayesianas se condicionan a los datos observados. A diferencia del enfoque tradicional, no es necesario preocuparse por conjuntos de datos distintos del que se observa. No hay necesidad de discutir las distribuciones de muestreo usando el enfoque Bayesiano.
  2. Desde un punto de vista bayesiano, es legítimo hablar de la probabilidad de que la proporción caiga en un intervalo específico, digamos (0 , 2 , 0 , 6), o de la probabilidad de que una hipótesis

situación. Supongamos que tenemos una muestra aleatoria X = ( X 1 ,... , Xn ) de tamaño n de f ( x | θ ). Entonces la distribución posterior de θ la podemos escribir como

f ( θ | X 1 ,... , Xn ) = f^ ( θ, X^1 ,... , Xn ) f ( X 1 ,... , Xn )

= L ( X^1 ,... , Xn | θ ) π ( θ ) f ( X 1 ,... , Xn )

donde L ( X 1 ,... , Xn | θ ) es la función de verosimilitud. Representamos por C todos los términos que no envuelven a θ (en este caso, C = 1 /f ( X 1 ,... , Xn )), tenemos

f ( θ | X 1 ,... , Xn ) = CL ( X 1 ,... , Xn | θ ) π ( θ ). Para valores muestrales específicos X 1 = x 1 , X 2 = x 2 ,... , Xn = xn , la ecuación resultante la podemos escribir en forma compacta como

f ( θ | x ) ∝ f ( x | θ ) π ( θ ), donde x = ( x 1 , x 2 ,... , xn ). Esto los podemos expresar como

(distribución posterior) ∝ (distribución a priori) × (verosimilitud). El resultado completo incluyendo la normalización, la podemos escribir como

(distribución posterior) ∝ [(distribución a priori) × (verosimilitud).] /

[∑

prior × verosimilitud

]

donde el denominador es un factor normalizador fijo obtenido por la verosimilitud acumulada sobre todos los valores anteriores posibles. Ahora podemos dar la definición formal

Definición 7. La distribución de θ , dados los datos x 1 , x 2 ,... , xn se llama distribución posterior, la cual está dada por

π ( θ | x ) =

f ( x | θ ) π ( θ ) g ( x )

donde g ( x ) es la distribución marginal de X. El estimador bayesiano del parámetro θ es la media posterior.

La distribución marginal g ( x ) la podemos calcular usando la fórmula

g ( x ) =

θ^ f^ ( x | θ ) π ( θ ) ,^ en el caso discreto ∞ −∞ f^ ( x | θ ) π ( θ ) dθ,^ en el caso continuo, donde π ( θ ) es la distribución a priori de θ. Aquí la distribución marginal g ( x ) se llama también la distribución predictiva de X , porque representa nuestras predicciones actuales de los valores de X teniendo en cuenta tanto la incertidumbre sobre el valor de θ como la incertidumbre residual sobre la variable aleatoria X cuando se conoce θ. En el entorno bayesiano, toda la información sobre θ de los datos observados y del conocimiento previo está contenida en la distribución posterior, π ( θ | x ). En casi todos los casos prácticos, debido a que estamos combinando nuestra información previa con la información contenida en los datos, la distribución posterior proporciona una estimación más refinada de θ que la a priori. Todas las inferencias de los métodos bayesianos se basan en la distribución de probabilidad posterior del

7.2 Estimación puntual bayesiana 5

parámetro θ. Usando la explicación dada más adelante, tomaremos la estimación bayesiana de un parámetro como la media posterior. Además, consideremos un problema de inferencia estadística bayesiana en el que el parámetro es una proporción poblacional. En los ensayos de Bernoulli, la población contiene dos tipos de eventos llamados “éxitos” y “fracasos”. La proporción de éxitos en la población la denotaremos con θ. Tomamos una muestra aleatoria de tamaño n de la población y observamos s éxitos y f fracasos. El objetivo es aprender sobre la proporción desconocida θ sobre la base de estos datos. En esta situación, un modelo está representado por la proporción poblacional θ. Nosotros no conocer su valor. En el Tema 2, hemos visto que podríamos usar la estimación de máxima verosimilitud (EMV) para estimar θ , que no utilizó ningún conocimiento previo que podamos tener acerca de θ. Nótese que la estimación de máxima verosimilitud es, en términos generales, equivalente a encontrar el modo de la verosimilitud. En un ambiente bayesiano, representamos nuestras creencias sobre la ubicación de θ en términos de una distribución de probabilidad a priori. Introducimos la proporción utilizando una distribución a priori discreta para θ. Podemos construir una distribución a priori mediante especificar una lista de valores posibles para la proporción θ y, a continuación, asignar probabilidades a estos valores que reflejan nuestro conocimiento sobre θ. Entonces podemos calcular las probabilidades posteriores usando el teorema de Bayes. El siguiente ejemplo ilustra este concepto.

Se cree que las plantas de fertilización cruzada producen descendientes más altos que las plantas autofertilizadas. Para obtener una estimación de la proporción de plantas fertilizadas cruzadas que son más altas, un experimentador observa una muestra aleatoria de 15 pares de plantas que son exactamente de la misma edad. Cada par se cultiva en las mismas condiciones con algunos fertilizados cruzados y otros autofecundados. Basándose en la experiencia previa, el experimentador cree que los siguientes son valores posibles de θ y que la probabilidad previa para cada valor de θ (peso anterior) es π ( θ ).

θ : 0.80 0.82 0.84 0.86 0.88 0. π ( θ ): 0.13 0.15 0.22 0.25 0.15 0.

Del experimento, se observa que en 13 de 15 pares, el fertilizado cruzado es más alto. Cree una tabla con columnas de la priori π ( θ ), la verosimilitud de L ( X 1 , X 2 ,... , Xn | θ ) para diferentes valores de θ y para la muestra dada , la verosimilitud de tiempos anteriores y la probabilidad posterior de θ. Basado en las probabilidades posteriores, ¿qué valor de θ tiene el mayor apoyo? También, encuentra E( θ ) basado en las probabilidades posteriores.

Solución

La verosimilitud obtenida de 13 de 15 tallos de plantas para distintos valores a priori de π se obtienen usando la distribución binomial

θ^13 (1 − θ )^2. Por ejemplo, si el valor previo de θ es 0.80, entonces la verosimilitud de θ dado en la muestra es

f ( x | θ ) =

(0 , 80)^13 (0 , 20)^2 = 0 , 2309.

En el Cuadro 7.2 obtenemos

(priori × verosimilitud) = 0 , 27217. Por consiguiente, el valor

7.2 Estimación puntual bayesiana 7

Figura 7.1: Distribución a priori discreta para la proporción p del Ejemplo 7.

podríamos seleccionar una priori no informativa , la cual nos habría asignado igual probabilidad a priori de 1/6 para cada uno de los posibles valores de θ. Una probabilidad priori no informativa (también llamado plana o priori uniforme ) proporciona poca o ninguna información. Basado en la situación, las priori no informativas pueden ser bastante dispersas, pueden evitar sólo valores imposibles del parámetro, y a menudo dan resultados similares a los obtenidos por los métodos clásicos frecuentistas.

Repita el Ejemplo 7.1, usando una priori no informativa, π ( θ ) = 1 / 6, para cada valor de θ

Solución

Aquí π ( θ ) = 1 / 6 para cada valor de θ , como se puede ver en el Cuadro 7.

Valores Prob. priori Verosimilitud Verosimilitud Prob posterior previos de θ π ( θ ) de θ previa de θ 0.80 1/6 0.2309 3 , 8483 × 10 −^2 0. 0.82 1/6 0.2578 4 , 2967 × 10 −^2 0. 0.84 1/6 0.2787 0 , 04645 0. 0.86 1/6 0.2897 4 , 8283 × 10 −^2 0. 0.88 1/6 0.2870 4 , 7833 × 10 −^2 0. 0.90 1/6 0.2669 4 , 4483 × 10 −^2 0. Total 0.2685 1.

Cuadro 7.2: Resumen de las probabilidades a priori y posterior. con una priori no informativa El estimador bayesiano para la priori no informativa es

E( θ ) = (0 , 80)(0 , 14333) + (0 , 82)(0 , 16003) + (0 , 84)(0 , 173) +(0 , 86)(0 , 17982) + (0 , 88)(0 , 17815) + (0 , 90)(0 , 16567) = 0 , 85173_._

Debe tenerse en cuenta que debido a que la elección de la priori en el Ejemplo 7.2 es sólo ligeramente informativo, no vemos mucha diferencia en los valores de las estimaciones bayesianas. En general, es difícil construir una priori aceptable, ya que la mayoría de las veces tiene que basarse en experiencias subjetivas. Por lo tanto, es relativamente fácil usar una priori “no informativo”. Por ejemplo, si no tenemos información sobre los valores de proporción θ , entonces un tipo de priori estándar “no informativa” es tomar la proporción θ como uno de los valores igualmente espaciados 0 , 0 , 1 , 0 , 2 ,... , 0 , 9 , 1. Podemos asignar para cada valor de θ la misma probabilidad, π ( θ ) = 1 / 11. Esta priori es conveniente y puede funcionar razonablemente bien, cuando no tenemos muchos datos. Es bastante fácil construir una priori cuando existe una considerable información previa sobre la proporción de interés. La distribución posterior nos da información relativa a la verosimilitud de θ dado los datos muestrales. Entonces la pregunta es cómo usar esa información para estimar θ. En lugar de tener un probabilidad explícita, la priori puede ser dada a traves de una distribución de probabilidad asumida. Ilustraremos los cálculos envueltos para hallar la distribución posterior con el siguiente ejemplo.

Sea X una variable aleatoria binomial con parámetros n y p. Supongamos que la distribución a priori de p es uniforme en [0 , 1]. Hallar la distribución posterior f ( p | x ).

Solución

Dado que X es binomial, la función de verosimilitud está dada por

f ( x | p ) =

n x

px (1 − x ) nx.

Como p es uniforme en [0 , 1], tenemos π ( p ) = 1 , 0 ≤ p ≤ 1. Entonces la distribución posterior está dada por f ( p | x ) ∝ f ( x | p ) π ( p ) =

n x

px (1 − x ) nx, x = 0 , 1 ,... , n,

la cual es la misma que la función de verosimilitud.

Note que en el ejemplo anterior, la forma de la función de probabilidad tanto en f ( x | p ) como en f ( p | x ) es la misma, sin embargo, en f ( p | x ), p se considera aleatorio y en f ( x | p ), p no es aleatorio. Esta forma particular de f ( p | x ) también se llama distribución beta-binomial para p con parámetros α = x + 1 y β = nx + 1. Este ejemplo ilustra que si la priori es no informativo (uniforme), entonces la posterior es esencialmente la función de verosimilitud. En el caso donde la priori y la posterior son de la misma forma, la llamamos priori conjugada. La inferencia bayesiana se simplifica cuando la densidad a priori tiene la misma forma que la verosimilitud (que es el caso de la priori conjugada) o cuando los datos son una muestra independiente de una familia exponencial (como una normal, Poisson o binomial). Las prioris bayesianas actúan como si se añadieran pseudo observaciones a los datos. El siguiente ejemplo demuestra el método para hallar la distribución posterior para una variable aleatoria continua.

σ (^) p^2 + σ^2 σ^2 σ (^) p^2

 μ

σ^2 σ (^) p^2 + σ^2

μp +

σ (^) p^2 σ (^) p^2 + σ^2

x

2

  • ˜ K,

donde

K ˜ =^1 2

σ (^) p^2 + σ^2 σ^2 σ (^) p^2

^ x

2 σ^2

μ^2 p σ (^) p^2

σ (^) p^2 σ (^) p^2 + σ^2

x +

σ^2 σ (^) p^2 + σ^2

μp

De la derivación anterior, obtenemos

f ( μ | x ) = Ke

− 12^ σ^ p^2 + σ^^2 σ^2 σ^2 p

^ x

2 σ^2

μ^2 p σ (^) p^2

σ (^) p^2 σ (^) p^2 + σ^2

x +

σ^2 σ (^) p^2 + σ^2

μp

 ,^ (7.3)

donde K no contiene a μ. Esto implica que la densidad posterior f ( μ | x ) es la función de distribución de una variable aleatoria normal com media (^)   

σ (^) p^2 σ (^) p^2 + σ^2

x +

σ^2 σ (^) p^2 + σ^2

μp

y varianza σ (^) p^2 + σ^2 σ^2 σ (^) p^2

Si hacemos τp = (^) σ^1 (^) p 2 y τ = (^) σ^1 2 , entonces la densidad posterior la podemos reescribir como un distribución normal con media (^) τp^1 + τ ( τpμp + τx ) y varianza (^) τp^1 + τ. Como un ejemplo, supongamos que μp = 100 , σp = 15 y σ = 10 , x = 115. Entonces f ( μ | x ) es la distribución de una normal con

Media =

100 + 225 (100) +^

100 + 225 (115) = 110 ,^4

y Varianza =

Instrucciones en R

Parametros

mup = sigmp = sigma = x=

Distribucion posterior

post=rnorm (1000 ,(( sigma ^2*mup/(sigmp ^2+ sigma ^2))

  • (sigma ^2x/(sigmp ^2+ sigma ^2))) , (sigma ^2sigmp ^2/(sigmp ^2+ sigma ^2))) post

Histograma

7.2 Estimación puntual bayesiana 11

hist(post , col="lightseagreen")

Figura 7.2: Histograma de la posteriori del Ejemplo 7.

7.2.1 Criterios para encontrar la estimación bayesiana

En el enfoque bayesiano para la estimación de parámetros, utilizamos tanto las observaciones previas como las observaciones. Esto conduce a una estrategia de estimación basada en la distribu- ción posterior. ¿Cómo sabemos que la estimación así obtenida es “buena”? Para evaluar la calidad de los estimadores probables, utilizamos una función de pérdida L ( θ, a ) que mide la pérdida incurrida utilizando una estimación de θ. Aquí θ es el parámetro que se está estimando (en problemas del mundo real no se conoce), y a es la estimación de θ. Luego se elige la estimación “óptima” o “mejor” estimado a = θ ˆ para minimizar la pérdida esperada E[ L ( θ, θ ˆ)], donde la esperanza se toma sobre θ con respecto a la distribución posterior f ( θ | x ). Aquí mencionamos dos tipos de funciones de pérdi- da comúnmente utilizadas: funciones de pérdida cuadráticas y error absoluto y las estimaciones resultantes.

  1. La función de pérdida cuadrática (o error cuadrático ) es de la forma L ( θ, a ) = ( aθ )^2. En este caso,

E[ L ( θ, a )] =

L ( θ, a ) f ( θ | x 1 ,... , xn )

( aθ )^2 f ( θ | x 1 ,... , xn ) dθ.

Diferenciando con respecto a a e igualando a cero, obtenemos

( aθ ) f ( θ | x 1 ,... , xn ) = 0

Esto implica que a =

θf ( θ | x 1 ,... , xn ) dθ.

7.2 Estimación puntual bayesiana 13

a su capacidad analítica. Ahora derivaremos las estimaciones bayesianos puntuales para algunas distribuciones específicas. Mientras que las prioris uniformes son útiles en las situaciones no informativas, la familia beta de distribuciones es una de las prioris informativas más comunes. Las distribuciones en la familia beta toman valores en el intervalo (0 , 1). Recordemos que si XBeta ( α, β ), entonces la función de distribución de X viene dada por

f ( x ) =

Γ ( α + β ) Γ ( α )Γ ( β ) x

α − (^1) (1 − x ) β − (^1) , si 0 ≤ x ≤ 1

0 , en otro caso, α > 0 , β > 0_._

La función de distribución la podemos escribir como

f ( x ) = Cxα −^1 (1 − β ) β −^1 ∝ −^1 (1 − β ) β −^1 ,

donde C = (^) ΓΓ (^ ( αα )+Γ β ( β )). También conocemos

E( X ) =

α α + β y^ V ar ( X ) =^

αβ ( α + β )^2 ( α + β + 1)

Cuando usamos la beta priori, tomaremos el número de éxitos como α − 1 y el número de fracasos como β − 1.

Figura 7.3: Procedimiento para la estimación bayesiana de parámetros

Sea X 1 ,... , Xn una muestra de una distribución geométrica con parámetro p , 0 ≤ p ≤ 1. Supongamos que la distribución priori de p es una beta con α = 4 y β = 4.

  1. Halle la distribución posterior de p.
  2. Halle el estimador bayesiano bajo la función de pérdida cuadrática.

Solución

  1. Dado que p es una Beta (4 , 4), la densidad a priori es

Γ (8) Γ (4)Γ (4)

p^3 (1 − p )^3 = 140 p^3 (1 − p )^3_._

Dado que las variables aleatorias Xi tienen distribución geométrica con parámetro p , la verosimilitud está dada por

L ( X 1 ,... , Xn | θ ) =

∏^ n

i =

p (1 − p ) xi^ −^1 = pn (1 − p )

n i =1 xi^ − n.

El producto de la función de verosimilitud y la priori está dado por

pn (1 − p )

n i =1 xi^ − n [140 p^3 (1 − p )^3 ] = 140 pn +3(1 − p )

n i =1 xi^ − n.

Dado que (posterior de p ) ∝ (priori de p )(verosimilitud ), reescribiendo la constante de normalización en la ecuación (7.1) como C y haciendo C 1 = 140 C , la distribución posterior es

Beta

 n + 4 ,

∑^ n

i =

xin + 4

donde α − 1 = n + 3 y β − 1 =

n i =1 xi^ −^ n^ + 3.

  1. Recuerde que para una variable aleatoria Beta ( α, β ), la media es α/ ( α + β ). Dado que el estimador bayesiano es la media posterior, la media de Beta

n + 4 ,

n i =1 xi^ −^ n^ + 4

es

n + 4 [

n i =1 xi^ −^ n^ + 4] + ( n^ + 4)

n^ + 4 n i =1 xi^ + 8^

Note que para n grande, el estimador bayesiano es aproximadamente n/

n i =1 xi^ , el cual es el EMV de p. En general, para una variable aleatoria Bernoulli con probabilidad de éxito desconocida p en [0 , 1], la priori conjugada usual es la distribución beta, donde el parámetro de la distribución beta lo escogemos de modo que refleje cualquier información previa que tengamos.

Supongamos que estamos lanzando una moneda sesgada, donde la probabilidad de caras p podría ser cualquier valor entre 0 y 1. Dada una sucesión muestral de lanzamientos x 1 ,... , xn , queremos estimar P ( H ) = p. Podemos tener dos fuentes de información: nuestra creencia previa, que expresaremos como una distribución beta, y los datos, que podrían provenir de conteos de caras x en n = 20 lanzamientos independientes de la moneda, digamos x = 13. Supongamos que en seis lanzamientos anteriores, observamos tres caras y tres sellos, lo que nos lleva a creer que el valor de p está cerca de 0,5. Obtenga la distribución posterior de p.

Instrucciones en R

Instrucciones para crear las priori y posterior junto con

los graficos respectivos

#----

Vector de probabilidades

p<-seq (0 ,1 ,0.01)

Función de densidad priori

beta.prior <-dbeta(p,4,4)

Funcion de densidad posterior

beta.post <-dbeta(p,17 ,11)

Grafico de las funciones de densidad

plot(p,beta.prior ,type="l",col="blue", xlab = "p",ylab = expression(pi(X)),ylim = c(0 ,4.5)) lines(p,beta.post ,col="red") legend("topleft", c("priori","posterior"), cex=0.8, lty =1:1,col=c("blue","red"))

Figura 7.4: Distribuciones priori y posterior para la proporción de lanzamiento de una moneda del Ejemplo 7.

Dado que Beta (1 , 1) es una uniforme en [0 , 1], el método del ejemplo anterior se puede utilizar para las priori no informativas. El método también se puede utilizar en muchas aplicaciones. Por ejemplo, supongamos que p representa la proporción de individuos infectados en una población, y x es el número de individuos infectados en una muestra de tamaño n. Luego, con una priori no informativa, podemos mostrar que la posterior de p es Beta ( x + 1 , nx + 1). Este tipo de entorno puede utilizarse para estimar la verdadera proporción de individuos infectados en la población.

7.2 Estimación puntual bayesiana 17

Supongamos que durante el último millón de días hemos estado prediciendo si el sol saldrá a la mañana siguiente o no. Cada tarde decimos que el sol saldrá a la mañana siguiente ( R ˆ), y tuvimos razón ( R ) todos estos días. Supongamos que en las 10^6 tardes predijimos que el sol saldrá al día siguiente. ¿Cuál es la probabilidad de que el sol salga al día siguiente?

Solución

El problema se puede plantear en la forma de la tabla siguiente 1 2 · · · 106 106 + 1 R ˆ R ˆ · · · R ˆ R ˆ R R · · · R R P ( R | R ˆ) = 1 si usamos el método de estimación frecuentista (por ejemplo EMV). Consideremos ahora el método de Bayes. Supongamos que la priori es uniforme en [0 , 1]. Esto es,

π ( p ) =

1 , si;0 ≤ p ≤ 1 0 , en otro caso.

Supongamos que predecimos n veces y tenemos x éxitos. Entonces

f ( x | p ) =

n x

px (1 − p ) nx.

La probabilidad conjunta está dada por

f ( x, p ) = f ( x | p ) π ( p )

=

n x

px (1 − p ) nx, x = 0 , 1 ,... , n ; 0 ≤ p ≤ 1_._

Por el teorema de Bayes, la probabilidad posterior π ( p | x ) es

π ( p | x ) =

f ( x | p ) π ( p ) ∫ (^1) 0 f^ ( x | p ) π ( p ) dp = K ( n, x ) px (1 − p ) nx, 0 ≤ p ≤ 1 , 0 ≤ xn,

la cual es una distribución beta. Recordemos que la densidad beta está dada por

f ( y ) =

B ( α, β ) y

α (^) (1 − y ) β − 1

y E( y ) = (^) αα + β. Entonces

E[ π ( p | x )] = x^ + 1 ( x + 1) + ( nx ) + 1

= x^ + 1 n + 2

En nuestro caso, x = 10^6 , n = 10^6 , lo cual implica que la media posterior está dada por

p ˆ β =

7.2 Estimación puntual bayesiana 19

Por lo tanto, el estimador puntual de μ es la media posterior 10.167. La Figura 7. muestra las densidades priori y posterior de μ.

Instrucciones en R

Instrucciones para crear las priori y posterior junto con

los graficos respectivos

#----

Vector de valores

x.nor <-seq (4 ,16 ,0.01)

Funcion de densidad

N.prior <-dnorm(x.nor ,10 ,2) N.post <-dnorm(x.nor ,10.167 ,0.66667)

Grafico de las funciones de densidad

plot(x.nor ,N.prior ,type="l",col="blue", xlab = expression(mu), ylab = expression(pi(mu)), ylim = c(0 ,0.6)) lines(x.nor ,N.post ,col="red") legend("topleft", c("priori","posterior"), cex=0.8, lty =1:1,col=c("blue","red"))

Figura 7.5: Densidades priori y posterior de μ del Ejemplo 7.

A veces, la inversa de la varianza en la distribución normal se llama la precisión de la distribución normal y se denota τ = 1 ^2. También note que en la parte 1) del ejemplo anterior (Ejemplo 7.8), si la varianza de la priori σ (^) 02 → ∞, entonces la priori se aplana ( π ( μ ) ∝ c ) a una constante. Esto básicamente equivale a decir que la información previa sobre μ disminuye, es decir, todas las μ son igualmente probables. Esto corresponde a una priori no informativa. También, en este caso como σ (^) 02 → ∞, entonces σ (^) 12 → σ^

2 n y^ μ^1 →^ x ¯. Por lo tanto, en el límite (es decir, en las prioris no informativas), la posterior f ( μ | x ) tendrá distribución N ( x, σ ¯^2 /n ), la cual es exactamente la misma

inferencia como en la estadística clásica. En los problemas de inferencia bayesiana, una de las preguntas es, que tendrá relativamente más influencia, ¿la priori o la verosimilitud? Como observamos una gran cantidad de datos, puede demostrarse que la distribución posterior está determinada casi exclusivamente por los datos. Es decir, asintóticamente, los datos observados tendrán una mayor influencia en comparación con la elección de la priori, y por lo tanto la priori será irrelevante. Por lo tanto, podemos hacer las siguientes observaciones generales. Si la priori es no informativa y tenemos una gran cantidad de datos entonces podemos esperar que la verosimilitud tenga una mayor influencia. Mientras que, si tenemos un pequeño conjunto de datos y una priori informativa, entonces la priori tendrá una mayor influencia en la distribución posterior. Los estimadores bayesianos son más complicados de calcular que el cálculo de las estimaciones de máxima verosimilitud en el caso simple. Sin embargo, en entornos complejos, las estadísticas bayesianas son a menudo relativamente más fáciles de calcular. Uno de los problemas en el uso del análisis bayesiano es la elección de una priori apropiada. No hay reglas específicas disponibles para este propósito. Por ejemplo, las siguientes prioris se usan comúnmente en la literatura. Algunas prioris comunes Si los datos están en [0 , 1], podríamos usar una distribución uniforme o una beta. Si los datos están en [0 , ∞), usaremos distribuciones normal (con μ relativamente grande), gamma o log-normal. Si los datos están en (−∞ , ∞), con frecuencia usaremos distribuciones normales o t.

7.3 Intervalo de confianza bayesiano o intervalos creibles

En este apartado queremos estudiar la pregunta: “¿Podemos construir un intervalo en el que estamos seguros de que el intervalo contiene el valor verdadero desconocido de θ ?” Hemos visto cómo en muchas situaciones puede ser preferible utilizar una estimación de intervalos en lugar de una estimación puntual para un parámetro de población θ. Estos intervalos en las estadísticas clásicas se llamaban intervalos de confianza. Podemos extender el concepto de estimación de intervalos a un entorno bayesiano. El análogo bayesiano de un intervalo de confianza se denomina intervalo creíble y se define como sigue.

Definición 7. A 100(1 − α ) % intervalo creible para θ es un intervalo ( a, b ) tal que

p ( aθb | x 1 ,... , xn ) ≥ (1 − α ) (7.4)

Aquí α es dada como un número positivo entre 0 y 1, y x 1 ,... , xn son los valores muestrales.

Nótese que leemos esta definición al revés, es decir, estamos al menos (1 − α )100 % seguros de que el verdadero valor de θ está entre a y b , dada la información de la muestra.

Debido a que la distribución condicional de θ dada en X 1 ,... , Xn es en realidad una distribución de probabilidad, tiene sentido hablar de la probabilidad de que θ esté en el intervalo ( a, b ). Una vez observados los datos, el intervalo creíble se fija mientras que θ es aleatorio. Esto contrasta con el