sábado, 31 de dezembro de 2011
quinta-feira, 29 de dezembro de 2011
ANPEC 2000 - Prova de Estatística - Questão 8 resolvida
Marcadores:
ANPEC,
Binomial,
Estatística,
estimador tendencioso,
exercícios resolvidos,
máxima verossimilhança,
prova de estatística,
Solução Problemas
terça-feira, 27 de dezembro de 2011
segunda-feira, 26 de dezembro de 2011
ANPEC 2000 - Prova de Estatística - Questão 11 resolvida
Agora uma questão com um viés um pouco mais econométrico....
QUESTÃO 11
Considere o seguinte modelo de regressão linear clássico, relacionando as variáveis quantidade demandada (Q) e preço do produto (P). Admita que as duas variáveis sejam medidas em Reais, e que a estimação será efetuada por MQO (ln é logaritmo natural)
lnQi = b1 + b2 lnPi + ui i = 1,2,..., 100.
É correto afirmar que:
(0) Variando-se o preço em 1%, a quantidade demandada variará 10b2%, ceteris paribus.
De jeito nenhum...
Nesta formulação (log Q versus log P), o coeficiente de log P é a elasticidade-preço da demanda, que é constante neste modelo. Se o preço varia em 1%, a quantidade demandada também varia em 1%. A afirmativa é falsa.
Note que este tipo de equação é o caso mais comum de equação de demanda com elasticidade constante (a função de demanda linear Q = a –b.P NÃO TEM elasticidade preço constante) e neste modelo, nos casos usuais (que exclui bizarrices como os bens de Giffen), o coeficiente de P é negativo.
(1) Ignorando-se o termo aleatório, se o preço ultrapassar determinado limite, será possível obter quantidades demandadas negativas.
Supondo que a lei da demanda funcione, e que o coeficiente do preço seja negativo, e então aumentos do preço levam a reduções da quantidade demandada, se P cresce demais (vai para + infinito) e b2 < 0 então eu teria ln (Q) indo para um número negativo, ou seja, Q tenderia a zero. Incidentalmente, esta é uma das vantagens de um modelo do tipo log-log como esse, evita constrangimentos como Q < 0.
A afirmativa é falsa.
(2) Se mudarmos as unidades de Q e P para dólares americanos, então a estimativa de b2 na nova equação será igual a sua estimativa obtida na equação em Reais.
Por exemplo, multiplique todos os Q´s e P´s por algum número k e obtenha Q* e P*. Então ln(Q*) = ln(k.Q) = ln(k) + ln(Q) e de maneira análoga ln(P*) = ln(k.P) = ln(k) + ln(P). A equação estimada torna-se: lnQ*i = c1 + c2 lnP*i + ui onde c1 e c2 são, a princípio, diferentes dos parâmetros da equação original. Mas, substituindo Q* e P* leva a: ln(k) + lnQi = c1 + ln(k) + c2 lnP*i + ui ou seja,
lnQi = c1 + c2 lnP*i + ui e então os coeficientes têm que ser iguais aos da equação original. A afirmativa é verdadeira.
Nota (minha) – eu só não vejo o sentido em transformar as quantidades para outra moeda. No enunciado do problema diz-que que Q é quantidade demandada, isso para mim é o número de unidades de qualquer coisa que o consumidor queira.... O que está sujeito a uma mudança de escala de preços é P, que pode ser escrito em reais, dólares, euros, yuans, .....
Supondo que a gente só mude a escala de P (ou seja, escreva os preços em outra moeda), o que acontece? Q* = Q mas, P* = k.P. Qual será a equação estimada? Ln(Q) = a1 + a2.ln(P*) + u = a1 + a2.ln(k.P) + u = a1 + ln(k) + a2.ln(P) e então o “k” será incorporado no termo constante e a elasticidade preço (a2) será a mesma que no modelo original.
(3) Se a variável ln Y (Y = renda) for acrescentada ao modelo o coeficiente R2 desta nova regressão será maior ou igual ao coeficiente R2 da regressão original.
Sem dúvida, mas isso não significa que o modelo com mais variáveis seja “melhor”. A afirmativa é verdadeira.
(4) Se o coeficiente R2 ajustado da regressão com a variável ln Y for maior do que o coeficiente R2 ajustado da regressão original, então necessariamente, o coeficiente de ln Y é estatisticamente significante, ao nível de significância de 5%, em um teste bi-lateral.
Duas boas (e não muito complicadas) referências no assunto são os livros do Gujarati e do Wooldridge.
Alguns pontos importantes:
- O R2 é sempre uma função não decrescente do número de variáveis explicativas do modelo. Quanto mais variáveis você joga no modelo, o R2 cresce (ou, na pior das hipóteses, fica igual). Por que? Por definição:
onde RSS é a soma do quadrado dos resíduos da regressão (que é função não crescente do número de variáveis explicativas) enquanto o denominador só depende da variável “dependente” Y, não depende das variáveis explicativas. A definição vale da mesma forma se, ao invés de usarmos Y como variável dependente, usarmos Z = ln(Y).
- O R2 ajustado foi criado para “penalizar” o modelo se inserirmos variáveis explicativas que não tem “boa” capacidade de explicação. Ele é definido como:
onde k é o número de termos da regressão INCLUINDO a constante. Este R2 é chamado de “ajustado” porque corrige cada soma de quadrados pelos seus graus de liberdade.
Pode-se provar que existe uma relação algébrica entre o R2 e o R2 ajustado, dada por:
Assim, o R2 ajustado é sempre menor ou igual ao R2 “usual” e a afirmativa é falsa – o resto dela só está aí para confundir a sua cabeça!
ANPEC 2000 - Prova de Estatística - Questão 3 resolvida
QUESTÃO 03
Dados os seguintes enunciados envolvendo variáveis aleatórias, é correto afirmar que:
(0) Se Y* = a + bY2 e X* = c + dX2, em que a, b, c, d são constantes reais, (b,d)> 0, E(X) = E(Y)=0, então correlação (Y*, X*) = correlação (Y,X).
(1) Se (Y,X) possuem uma distribuição Normal bivariada, então, segue-se que E(Y|X) = a + b Y, em que a e b dependem dos momentos de Y e X.
(2) Se X ~ Normal(0,1) então Y= eX tem distribuição lognormal com E(Y)= e1/2.
(3) Se (X,Y) possuem densidade conjunta f(x,y) = f2 e-f y, f >0, e 0 £ x £ y, então E(X)= 1/f.
SOLUÇÃO
Comentários sobre a teoria subjacente
Quando você estiver tratando de correlação (e de sua versão não padronizada, a covariância), lembre-se que elas são medidas da associação LINEAR entre duas variáveis.
Para isso, vamos às definições:
A covariância entre duas variáveis aleatórias X1 e X2 é definida como:
A unidade da covariância é o produto das unidades das duas variáveis, e então fica meio complicado saber se a relação (linear) entre X1 e X2 é “forte” ou “fraca”. Assim, é conveniente trabalhar com uma medida padronizada da covariância, esta medida é o coeficiente de correlação, mostrado a seguir:
Isto é, o coeficiente de correlação é a covariância dividida pelo produto dos desvios padrões das duas variáveis.
Atenção, atenção:
· Correlação não tem a ver com causalidade! O fato de duas variáveis terem alta correlação não significa que uma “causa” a outra de forma alguma!!!!! Elas apenas “seguem” juntas, e isso pode acontecer devido ao efeito de uma (ou mais) variáveis que não estão sendo consideradas.
· Correlação e covariância são medidas LINEARES! Só medem a associação linear entre duas variáveis, não medem dependência entre as variáveis. Você pode construir um exemplo em que Y = X2 (ou seja, as duas variáveis são totalmente dependentes), mas a correlação entre elas é zero.
· Finalmente, correlação (ou covariância) zero só é equivalente a independência no caso de duas variáveis Normais. Ou seja, se X e Y são normais, a condição COV(X, Y) = 0 garante que eles são independentes.
Então podemos começar a examinar as afirmações do texto.
(0) Se Y* = a + bY2 e X* = c + dX2, em que a, b, c, d são constantes reais, (b,d)> 0, E(X) = E(Y)=0, então correlação (Y*, X*) = correlação (Y,X).
Comece pela covariância para resolver isso....
Note que E(Y*) = E(a + bY2) = a + bE(Y2) = a +b.VAR(Y) pois E(Y) = 0 por hipótese.
De maneira análoga:
E(X*) = E(c + dX2) = c + dE(X2) = c +d.VAR(X)
COV (Y*, X*) = E{(a + bY2 – a – b.VAR(Y))( c + dX2 – c – d.VAR(X))}
=b.d.E{(Y2 – VAR(Y)).((X2 – VAR(X))} e este valor esperado certamente não é a mesma coisa que a COV(X, Y).
A afirmativa é falsa, mesmo que você divida pelos respectivos desvios padrões para obter o coeficiente de correlação.
(1) Se (Y,X) possuem uma distribuição Normal bivariada, então, segue-se que E(Y|X) = a + b Y, em que a e b dependem dos momentos de Y e X.
Você pode até não saber nada sobre a Normal bivariada, mas deve suspeitar que a afirmativa é falsa. Você está calculando uma média condicional de Y dado X. De quem ela vai depender? De X, nunca de Y! Pense em E(Y|X) como a média de Y DADO X. Se eu conheço X, como Y vai se comportar? O que pode confundir nesta afirmação é que a média condicional no caso da Normal bivariada é realmente linear, mas estão mostrando a reta errada.
A afirmativa é FALSA.
(2) Se X ~ Normal(0,1) então Y= eX tem distribuição lognormal com E(Y)= e1/2.
Essa é clássica. Vai depender de duas coisas:
1) Que você saiba a definição da distribuição lognormal (e como ela se relaciona com a Normal)
2) Quem é a função geradora de momentos da Normal (e não da lognormal porque ninguém sabe isso de cabeça....) pois isso vai te permitir avaliar se a segunda afirmação é falsa ou verdadeira
Então vamos ao fatos...
Em PRIMEIRO LUGAR – UMA VARIÁVEL LOGNORMAL NÃO É O LOG DE UMA NORMAL!!!!!!!! Preciso escrever com uma letra maior ainda prá você se lembrar?
E por que não? Fácil – qual o intervalo de definição de uma Normal? Os números reais, né? Ou seja, menos infinito a mais infinito. E eu te pergunto: “dá prá tirar log de número negativo??” Se você respondeu sim a esta pergunta ou está na hora de você ir dormir, ou você tem que parar e estudar Cálculo....
Bem, se não dá para tirar log (ou ln ou qualquer outra base que você prefira) de uma variável Normal, então o que pode ser? Adivinhou, a função inversa do log, a exponencial, o que nos leva a esta belíssima e charmosa definição:
Se X é uma variável Normal com média m e variância s2 então Y = eX tem distribuição lognormal.
Agora a parte mais “cascuda” da estória...
Lembre-se da definição da função geradora de momentos (fgm) de uma v.a. (variável aleatória). Vou pensar só no caso de uma v.a. contínua que é o que nos interessa neste momento...
A fgm de uma variável contínua com densidade f(x) é dada por:
Bem, talvez você já tenha suspeitado que esta integral nem sempre converge e é por isso que muitas vezes a gente usa a função característica (que sempre converge) mas tem o inconveniente de ser uma integral nos números complexos.
Voltando agora ao nosso problema, se você quiser fazer umas continhas vai ver que, para uma variável N(0,1), a fgm é dada por: M(t) = exp(t2/2).
E o que isso tem a ver com a média de Y na lognormal? Fácil!
Note que:
E(Y) = E(eX) e o lado direito desta equação é igualzinho à fgm de X (que é uma variável N(0,1)), quando a gente substitui t por 1. Ou seja, é a fgm de X avaliada em t = 1.
Logo:
E(Y) = E(eX) = M(1) = exp(12/2) = exp(1/2) = e1/2
A afirmativa é VERDADEIRA.
(3) Se (X,Y) possuem densidade conjunta f(x,y) = f2 e-f y, f >0, e 0 £ x £ y, então E(X)= 1/f.
Pare, olhe, pense – só então comece a fazer contas enlouquecidamente....
Note que isso é uma densidade CONJUNTA para X e Y. E cadê o X? Não está claramente na fórmula de f(x,y), está no domínio da densidade conjunta!
E qual a “cara” desse domínio? Ao invés de termos X e Y restritos apenas pelo valor zero, a reta y = x tem um papel importante. Por exemplo, o ponto (x = 1, y = 2) está dentro do domínio da função, mas (x = 2, y = 1) não está.
Então, o domínio da função densidade conjunta é dado pela região hachurada no seguinte gráfico:
Para achar a média de X precisamos achar sua densidade marginal, ou seja, integrar a densidade conjunta para todo Y. Depois disso, é só usar a fórmula habitual da média de uma distribuição de probabilidade (na verdade você poderia fazer as duas coisas numa só etapa a partir da conjunta, mas eu acho que fica mais claro se a gente dividir isso em duas partes...)
A densidade marginal de X é:
Ou seja, a densidade marginal de X é uma exponencial, e pela sua parametrização podemos notar que a média é E(X) = 1/f. Neste caso nem foi necessário calcular a média, pois caímos numa densidade tão conhecida que a gente já reconhece a média “de cara”.
Se você não tivesse notado isso, o que deveria fazer? A conta...
e vai ter um trabalhinho aí tendo que resolver esta integral por partes.
A afirmativa é VERDADEIRA.
Marcadores:
ANPEC,
correlação,
covariância,
Estatística,
exercícios resolvidos,
função geradora de momentos,
lognormal,
Normal,
probabilidade,
Solução Problemas
ANPEC 2000 - prova de Estatística - Questão 2 resolvida
QUESTÃO 02
A tabela abaixo apresenta, para os anos de 1994 e 1999, dados hipotéticos sobre preços e quantidades vendidas de 6 diferentes produtos comercializados por certa companhia. Calcule a variação percentual dos preços dos produtos da companhia neste período, utilizando o índice de Paasche.
1994 | 1999 | |||
Tipo de pro duto | Preço | Quantidade Vendida | Preço | Quantidade Vendida |
A | 5 | 80 | 20 | 100 |
B | 7 | 100 | 6 | 1000 |
C | 2 | 200 | 5 | 200 |
D | 3 | 600 | 4 | 500 |
E | 1 | 300 | 2 | 200 |
F | 2 | 100 | 3 | 200 |
SOLUÇÃO ( a resposta é 20)
Aqui recorro sem pestanejar à Wikipedia…. O link é:
Lembre-se que você quer calcular um indíce que mede a variação dos preços (não importa se por Paasche ou Laspeyres) então o que muda são os preços, as quantidades ficam fixas (seja no período inicial ou final, aí é que você vai ter um índice ou outro – Laspeyres (lááa atrás, ou seja, no período inicial e Paasche no período final).
Da Wikipedia, o índice de Paasche é calculado como:
E o de Laspeyres é dado por:Onde P é a variação do nível dos preços nos dois períodos t0 é o período base (em geral o primeiro ano) e tn é o
período no qual o índice de preços está sendo calculado.
Então no cálculo do índice de preços de Paasche (que é o solicitado no problema) usamos as quantidades dos produtos no período final.
Uma planilha Excel ajuda a mostrar o cálculo:
1994 | 1999 | ||||||
Tipo de produto | Preço | Quantidade Vendida | Preço | Quantidade Vendida | Paasche - Numerador | Paasche - Denominador | Índice Paasche Preços |
A | 5 | 80 | 20 | 100 | 2000 | 500 | |
B | 7 | 100 | 6 | 1000 | 6000 | 7000 | |
C | 2 | 200 | 5 | 200 | 1000 | 400 | |
D | 3 | 600 | 4 | 500 | 2000 | 1500 | |
E | 1 | 300 | 2 | 200 | 400 | 200 | |
F | 2 | 100 | 3 | 200 | 600 | 400 | |
SOMA | 12000 | 10000 | 1.2 |
A coluna em amarelo (das quantidades em 1999) é a única que interessa, pois só precisamos multiplicar os preços pela quantidade no ano final. A coluna chamada “Paasche Numerador” contém os preços de 1999 multiplicados pelas quantidades de 1999. A coluna “Paasche Denominador” contém os preços de 1994 multiplicados pelas quantidades de 1999. As linhas correspondentes às somas são, obviamente, os somatórios das colunas indicadas. O índice de Paasche é a razão entre estas somas e é 1,2. Logo, a variação percentual dos preços, segundo este índice, foi de 20% no período.
Apenas para recordar, vamos calcular o índice de preços de Laspeyres nesta mesma situação. Lembre-se que no cálculo do Laspeyres usamos as quantidades “lá atra´s”, ou seja, no ano base...
Note que o resultado é bastante diferente, a variação percentual dos preços é agora cerca de 71% no período.
1994 | 1999 | ||||||
Tipo de produto | Preço | Quantidade Vendida | Preço | Quantidade Vendida | Laspeyres - Numerador | Laspeyres - Denominador | Índice Laspeyres Preços |
A | 5 | 80 | 20 | 100 | 1600 | 400 | |
B | 7 | 100 | 6 | 1000 | 600 | 700 | |
C | 2 | 200 | 5 | 200 | 1000 | 400 | |
D | 3 | 600 | 4 | 500 | 2400 | 1800 | |
E | 1 | 300 | 2 | 200 | 600 | 300 | |
F | 2 | 100 | 3 | 200 | 300 | 200 | |
SOMA | 6500 | 3800 | 1.71 |
Assinar:
Postagens (Atom)