
















Estude fácil! Tem muito documento disponível na Docsity
Ganhe pontos ajudando outros esrudantes ou compre um plano Premium
Prepare-se para as provas
Estude fácil! Tem muito documento disponível na Docsity
Prepare-se para as provas com trabalhos de outros alunos como você, aqui na Docsity
Os melhores documentos à venda: Trabalhos de alunos formados
Prepare-se com as videoaulas e exercícios resolvidos criados a partir da grade da sua Universidade
Responda perguntas de provas passadas e avalie sua preparação.
Ganhe pontos para baixar
Ganhe pontos ajudando outros esrudantes ou compre um plano Premium
Comunidade
Peça ajuda à comunidade e tire suas dúvidas relacionadas ao estudo
Descubra as melhores universidades em seu país de acordo com os usuários da Docsity
Guias grátis
Baixe gratuitamente nossos guias de estudo, métodos para diminuir a ansiedade, dicas de TCC preparadas pelos professores da Docsity
Este documento fornece uma abordagem detalhada do método de máxima verossimilhança em econometria, enfatizando suas propriedades assintóticas e aplicação em amostras aleatórias. Inclui exemplos e cálculos para ilustrar o processo de obtenção dos estimadores de máxima verossimilhança e a matriz de informação.
Tipologia: Notas de aula
1 / 24
Esta página não é visível na pré-visualização
Não perca as partes importantes!
Marcelo S. Portugal^1
1. Introdução O objetivo central destas notas é fornecer uma breve introdução ao método de máxima verossimilhança. 2 Este procedimento, assim como o método de mínimos quadrados, permite a estimação dos parâmetros de modelos econométricos e a realização de testes de hipóteses relativos a restrições lineares e não lineares ao vetor de parâmetros. Embora seja bastante antigo 3 , foi apenas a partir dos anos oitenta, em função do desenvolvimento dos computadores pessoais de grande potência, que o método de máxima verossimilhança começou a ser utilizado extensivamente em econometria. Como veremos a seguir, o grande obstáculo à utilização prática do método de máxima verossimilhança consiste na freqüente incapacidade de obter-se uma solução explícita para a maioria dos problemas em questão. Neste sentido, existe a necessidade de utilizar-se algum método de otimização numérica para a obtenção dos parâmetros de interesse. A grande importância do método de máxima verossimilhança consiste nas boas propriedades assintóticas dos estimadores, que são consistentes e assintoticamente eficientes.
(^1) Gostaria de agradecer a colaboração de Suzana Menna Barreto Coccaro e dos bolsistas de iniciação científica Frederico Pinto (CNPq/UFRGS) e Leandro Milititisky (PRUNI/UFRGS). 2 Uma abordagem detalhada e bastante completa do método de máxima verossimilhança pode ser encontrada em Cramer (1986). 3 A formulação original foi feita por Fisher (1929).
2. O Método de Máxima Verossimilhança Uma amostra aleatória ( y (^) 1 , y (^) 2 ,..., y (^) n ), retirada de uma população com uma função de densidade de probabilidade f ( y , θ) , a qual depende
do vetor de parâmetros θ, tem uma função de densidade de probabilidade (pdf) conjunta dada por
f y i
n ∏ = 1 (^ i,^^ θ^ ).
Isto é, a função de densidade de probabilidade conjunta é simplesmente o produto das densidades de cada uma das observações,
f ( y (^) 1 , θ) x f ( y (^) 2 , θ) x ... x f ( y (^) n, θ)
onde θ é um vetor de parâmetros (fixo) e yi é uma variável aleatória (variável). Note que, antes da retirada da amostra, cada observação é uma variável aleatória cuja função de densidade de probabilidade é igual a função de densidade de probabilidade da população. A média e a variância de cada observação a ser retirada são iguais à média e variância da população em questão. É neste sentido que dizemos que na função de densidade conjunta, antes de retirada a amostra, θ é fixo e yi é variável. Contudo, uma vez que tenha sido obtida uma amostra específiva, yi torna-se fixo e a função de densidade de probabilidade conjunta pode então ser reinterpretada como sendo uma função do vetor de parâmetros θ, que se tornam variáveis. Para uma dada amostra ( y 1 (^) , y (^) 2 ,..., y (^) n ) a função
Cosidere agora as seguintes definições:
i) escore eficiente ( efficient score ):^ ∂∂ θ^ ln^^ L^ = S ( )θ ;
∂ ∂ θ ∂ θ θ
(^2) ln '
Note que o estimador de máxima verissimilhança ( θ! ) vai ser a solução do conjunto de equações S ( ) θ = 0. Mais ainda, dadas algumas condições bem gerais, é possível mostar-se que θ! é consistente, assintoticamente normalmente distribuído e tem variância [ I ( θ )] −^1. Este valor, [ I ( θ )] −^1 , é conhecido como o limite inferior de Cramer-Rao, pois não existe outro estimador consistente do vetor θ que tenha variância menor. Neste sentido, o estimador de máxima verossimilhança ( θ! ) é também eficiente assintoticamente. Vamos agora apresentar dois exemplos para facilitar a visualização do funcionamento do método de máxima verossimilhança e da composição da matriz de informação. Exemplo 1: Considere uma variável aleatória y com distribuição normal, média μ e variância σ^2.
y ~ N( μ σ ,^2 )
A função de densidade de probabilidade de cada observação é também normal e dada por
f ( y (^) t ; μ σ, ) exp ( yt ) πσ σ
(^212 2) μ 2 2
e a função de densidade conjunta é dada por
f y (^) t t
T ( ; μ σ, 2 ) = 1
∏.
Logo a função de verossimilhança é
L f y (^) t t
=
∏ (^ μ,^ σ^2 ;^ ) 1
e o logaritmo natural de L é
L y (^) t f^2 y t
T μ σ (^) ∑ 1 μ σ t
= =
∑ ln^2 ∑(^ )
2 2 2 1 1
πσ (^) σ y (^) t μ t
T t
T
ln L T^ ln T^ ln ( y (^) t ) t
T = − − =
(^22) 1
π σ 2 σ μ^.^ (1)
A equação (1) acima é a forma mais usual de apresentação do ln L. Vamos agora encontrar os estimadores de máxima verossimilhança da média (μ) e da variância (σ^2 ), isto é vamos obter o vetor (μ, σ^2 ) que
( ) ∂ μ ∂ σ∂ (^ ) σ
μ
2 (^2 2 )
ln L (^1) y t t
T = − − ∑=
A matriz de informação é formada pelas derivadas segundas do logaritmo da função de verossimilhança avaliadas no ponto de máximo, isto é, em μ! e σ!^2. Se multiplicarmos e dividirmos o lado direito da equação (5) por T e lembrando que E(yt )= μ, temos
θ σ σ
2 4
As variâncias dos estimadores de máxima verossimilhança podem então ser obtidas através da inversão da matriz de informação.
θ
σ σ
1
2 4
Exemplo 2: Consideremos agora o modelo de regressão simples que apresenta resíduos com distribuição normal.
y (^) i = β x (^) i + u (^) i ; onde u (^) i ~ N ( , 0 σ^2 )
Neste caso, a função de densidade do erro ui é dada por
f ( μ i ) exp ui^ i , ,..., n πσ σ^
= 1 ^ − ^ para = 2 2
2 2
Como erro u (^) i tem distribuição normal com média zero e variância σ^2 , y (^) i vai também ser normal e tem uma função de densidade dada por
f ( y (^) i ) = 1 exp − ( y (^) i − x (^) i ) para i = , ,..., n 2
2 πσ σ
β. (9)
Logo o logaritmo natural da função de verossimilhança é dado por
ln L ( , ; y (^) i ) ln f ( yi) i
n β σ^2 1
∑=
Substituindo (9) em (10) temos
ln( β σ, 2 ; ) ln πσ (^2) σ 2 ( β )^2 1
yi 2 21 y (^) i xi i
n = − − − =
∑
=
∑
n n (^) y x i i^ i
n 2 2 2
2 2 2 1
ln π ln( σ ) (^) σ ( β ) (11)
Para obter os estimadores de máxima verossimilhança de β e σ^2 temos que igualar as derivadas primeiras da equação (11) à zero.
∂∂ β ln L (^) σ ( y (^) i β x (^) i ) ( xi ) i
= − (^21 2) ∑ 2 − − = 0 1
( )
( )
∂ ∂σ σ (^) σ
ln L n y (^) i bxi i
n 2 2 2 2
2 (^21)
Tomando-se o valor esperado das equações (17), (18) e (19) e lembrando-se que E x u ( (^) i i )= 0, pois x e u não são correlacionados, e que
E u (^) i n i
n 2 1
2 ∑ =
=^ σ^ , obtemos a matriz de informação avaliada no máximo a a
sua inversa.
( )
x
n
i i
n
−
=
∑ ∂ ∂ θ ∂ θ θ^ σ σ
2
2 (^1 )
2 2
ln '
[ ] (^ )^ ( )
I x n
Var Var i i
n ( )
θ!
σ
σ
β σ
− = =
(^1) ∑
2 2 1 4 2
Podemos ainda escrever a função de verossimilhança no ponto de máximo como uma função da soma do quadrado dos resíduos (RSS), destacando assim a relação entre os métodos de máxima verossimilhança e mínimos quadrados ordinários.
ln L ( ) θ!^ = const. − n 2^ ln^ RSSn
3. Função de Verossimilhança Concentrada Em alguns situações, nem todos os parâmetros são de interesse. Aqueles parâmetros que não são de interesse, por serem conhecidos ou estimados de alguma outra forma, são chamados de parâmetros de
perturbação ( nuisance ). Neste caso, podemos reduzir o espaço dos parâmetros e trabalhar apenas com aqueles que são de nosso interesse. Para tanto pode-se trabalhar com a função de verossimilhança concentrada. Considere a possibilidade de de estabelecermos uma partição do espaço paramétrico θ, de forma que tenhamos
θ = θ 1 ×θ 2
A função de verossimilhança pode então ser reescrita como
Considere agora a condição de primeira ordem para a obtenção do estimador de θ 2
∂ ∂θ
2
e escreva esta condição em função de θ 1 ,
∂θ θ
L (^) g 2 1
verossimilhança concentrada em relação a θ 2
Considere um conjunto de observações com média μ e variância σ^2 V. O problema da dependência entre as observações está em V. Se V=I , estamos de volta ao caso anterior. Se a diagonal principal de V não for composta de constantes temos heterocedasticidade e se os elementos fora da diagonal principal forem diferentes de zero temos autocorrelação serial. Para facilitar a visualização do problema podemos escrever a matriz de covariâncias como
( )
( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( )
( ) ( ) ( ) ( )
E u u
E u E u u E u u E u u E u u E u E u u E u u E u u E u u E u E u u
E u u E u u E u u E u
i j
n n n
n n n n
2
12 1 2 1 3 1 2 1 22 2 3 2 3 1 3 2 32 3
1 2 3 2
Se (^) E u ( (^) i^2 ) = σ 2 e (^) E u ( (^) i , u (^) j )= σ^2 I para i, j = 1, 2, ..., n temos
E u ( (^) i , u (^) j )= σ^2 I. Se temos σ^2 V , com V ≠ I , nós temos problemas de
autocorrelação e/ou heterocedasticidade. A presença destes problemas no caso do método de mínimos quadrados, implica na necessidade de ajustes que levam ao "método" de mínimos quadrados generalizados. Os estimadores de mínimos quadrados ordinários e mínimos quadrados generalizados são dados por
β! OLS = (^ X X ′ )−^1 X y ′ e β! OLS = ( X V ′ −^1 X )−^1 X V ′ −^1 y
Neste caso, a densidade conjunta das observações é dada pela equação (22) apresentada abaixo.
ln L y ( (^) 1 ,..., y (^) T ; μ σ, 2 V^ )= − T 2^ ln 2 π − T 2^ ln σ 2 − 12 ln V − (^2) σ^12 ( y (^) t − μ) (^) ′ V −^1 ( yt −μ)
Note que se V=I temos a equação (1), pois I = 1 e ln 1 =0. A equação (22) é a forma usual de apresentação da função de verossimilhança quando as observações não forem independentes. O principal objetivo desta seção, contudo, é obter a função de verossimilhança em função do error de previsão. Para tanto devemos lembrar que podemos fatorar a densidade conjunta como
ln l ( y (^) 1 ,..., y (^) T ) = ln l ( y (^) 1 ,..., y (^) T − 1 ) +ln l ( y (^) T y 1 ,..., yT − 1 ). (23)
Esta fatoração é realizada utilizando-se um resultado básico de probabilidade condicional que sugere que dados dois eventos A e B , temos que P(A) = P(A/B)P(B). Neste sentido, o segundo termo do lado direito da equação (23) é a distribuição de y (^) T dada toda a informação até T-. Considere agora o problema de estimar y (^) T usando-se toda a informação disponível até T-1 .Para tanto vamos utilizar o estimador que minimiza o erro médio quadrado é ( y!^ (^) T T − 1 ), onde
y!^ (^) T T − 1 = E y ( (^) T y (^) 1 ,...,yT − 1 )
A variância do erro de previsão associada a y! (^) T T − 1 é dada por
Var y ( (^) T y (^) T − 1 ,..., y (^) 1 )= σ^2 fT
de verossimilhança, agora com base no erro de previsão. A vantagem em se escrever a função de verossimilhança desta forma, é que vt e f (^) t podem ser facilmente calculados de forma sequencial pelo filtro de Kalman. 5 Em modelos mais gerais onde um vetor de N x 1 é observado a cada ponto no tempo o argumento é o mesmo de antes com v (^) t sendo agora também um vetor de dimensão N x 1 , com os erros de previsão com média zero e matriz de variância Ft. O ln L pode então ser escrito como
ln L ln ln
Ft v F v t
T t t
T = − 2 2 − (^) ∑= − (^) ∑= ′ t − t
π^1
5. Maximização da Verrosimilhança Na maioria das vezes, contudo, ao contrário do que ocorreu nos exemplos 1 e 2, as condições de primeira ordem para o problema de maximização da função de verossimilhança, não permitem a obtenção de uma solução explícita para os estimadores em questão. O sistema de equações gerado pelas condições de primeira ordem é quase sempre não- linear, obrigando que a maximização seja feita por algum processo numérico. Os procedimentos de otimização numéricos funcionam de forma recursiva, sendo o valor dos parâmetros no período t+1 uma função do valor destes no período t. O algoritmo numérico consiste em tentar um valor para o parâmetro, e depois corrigi-lo continuamente até que algum critério de convergência seja atendido, quando então tem-se um máximo para a função de verossimilhança. Em alguns casos, quando não ocorre convergência, o processo de iteração tem de ser interrompido depois de um número específico de iterações.
(^5) Para maiores detalhes a este respeito ver Harvey (1993), capítulo 4.
As recursões são em geral da forma:
θ^!^ i + 1 = θ! (^) i +λ i di onde
λ λ (^) [ ( θ)]
∂ i d^ i iI^ ∂θ (^) θ θ
!
Os diferentes métodos otimização numérica variam quanto a forma de I *^ ( θ! ), que pode ser a matriz de informação, como é o caso no
método de score , ou alguma aproximação dela. A expressão acima dá algumas pistas no que diz respeito à forma de correção aplicada em cada interação. Ela vai depender da variância do estimador e do gradiente da função de verossimilhança no ponto considerado. Quando o gradiente for bem inclinado e a variância alta, a mudança no parâmetro de uma recursão para a outra é maior, e vice-versa. Neste caso, segue-se a superfície de erro na direção indicada pelo gradiente mais inclinado. Muitos problemas podem surgir dependendo da forma da função de verossimilhança. A figura (1a) representa o formato ideal para a função de verossimilhança. Contudo, na prática podemos encontrar funções que sejam "achatadas" ao redor do máximo, como é o caso da figura (1b), fazendo com que o algoritmo numérico seja interrompido longe do verdadeiro máximo. Por fim, se existirem máximos locais o algoritmo pode ficar preso no máximo local, uma vez que o algoritmo segue a superfície de erro na direção indicada pelo gradiente mais inclinado, e o valor obtido vai depender do ponto escolhido para iniciar as iterações. 6
(^6) Para maiores detalhes sobre diferentes métodos de otimização numérica, ver Harvey (1990), capítulo 4.
princípios a problemas específicos, tais como autocorrelação serial, fatores comuns, etc, tem de ser feita caso a caso.
6.1 Teste da Razão da Verossimilhança (LR) Este teste requer a estimação do modelo restrito e sem restrição. Vamos denominar o vetor de parâmetros restrito de θ$ , isto é, a hipótese a ser testada é h ( θ~ )= 0 , e o vetor não restrito de θ!. Logo, podemos calcular o valor da função de verossimilhança no ponto de máximo com e sem a restrição, vale dizer, L ( θ~ ) e L ( θ!) respectivamente. Se a restrição for verdadeira, o valor da função de verossimilhança avaliada em θ$ e θ! devem estar "próximos", indicando que os dados estão dando suporte a restrição. A questão é como definir precisamente o que seja "próximo". O teste LR é baseado no ln da razão entre as duas verossimilhanças, isto é, na diferença entre o ln L ( θ~ )e ln L ( θ!). Se H 0 é verdadeiro, a estatística é da forma
LR = − (^2) [ ln L ( θ~ ) −ln L ( θ!) (^) ] ~ χ g^2
onde g é o número de restrições. O teste é, portanto, distribuído assintoticamente como uma chi-quadrado com g graus de liberdade. Se o valor da estatística for maior que o valor crítico ao nível de significância desejado nós rejeitamos H 0.
6.2 Teste de Wald Este teste depende apenas da estimação do modelo sem restrição, e a idéia básica é investigar se a estimativa sem restrição esta perto de cumprir a restrição. Isto é, nós utilizamos θ! , o vetor estimado sem
restrição, para testar se h ( θ! ) está próximo de zero. Caso tenhamos h ( θ!) = 0 a restrição estará sendo satisfeita pelos dados. A questão é, novamente, definir o que significa "próximo" de zero. Para fazermos qualquer consideração a este respeito precisamos primeiro saber quem é a variância de h ( θ! ). É possível mostrar-se que
Var h [ ( θ!^ )]= J Var ' (θ !) J
onde o vetor J é dado por
J = [ ∂ hi ∂θ! i^ ].
O teste de Wald ( W ) tem uma distribuição (^) chi-quadrado com (^) g graus de liberdade, onde g é o número de restrições testadas.
W = h (^) [ Var h ( (^) )] h (^) g
− ( θ! )' θ!^ ( θ!) ~ χ
(^1 )
Para facilitar a visualização do teste Wald vejamos sua aplicação prática para o caso de teste para fatores comuns (CONFAC). Exemplo 4: Considere o modelo de regressão dinâmico abaixo
y^!^ t = α!^ yt − 1 + β!^0 x (^) t + β!^1 x (^) t-1 + β!^2 z (^) t +β! 3 zt-
e suponha que as restrições a serem testadas são
h 1 ( θ!)^ = α β!! 0 + β! 1 = 0