sábado, 31 de dezembro de 2011

ANPEC 2001 - Prova de Estatística - Questão 10 resolvida


ANPEC 2001 - Prova de Estatística - Questão 1 resolvida


segunda-feira, 26 de dezembro de 2011

ANPEC 2000 - Prova de Estatística - Questão 15 resolvida





ANPEC 2000 - Prova de Estatística - Questão 14 resolvida

ANPEC 2000 - Prova de Estatística - Questão 11 resolvida

Agora uma questão com um viés um pouco mais econométrico....



QUESTÃO 11
Considere o seguinte modelo de regressão linear clássico, relacionando as variáveis quantidade demandada (Q) e preço do produto (P). Admita que as duas variáveis sejam medidas em Reais, e que a estimação será efetuada por MQO (ln é logaritmo natural)

lnQib1  + b2  lnPi + ui                                                i = 1,2,..., 100.

É correto afirmar que:
         
(0)   Variando-se o preço em 1%, a quantidade demandada variará 10b2%, ceteris paribus.

De jeito nenhum...
Nesta formulação (log Q versus log P), o coeficiente de log P é a elasticidade-preço da demanda, que é constante neste modelo. Se o preço varia em 1%, a quantidade demandada também varia em 1%. A afirmativa é falsa.

Note que este tipo de equação é o caso mais comum de equação de demanda com elasticidade constante (a função de demanda linear Q = a –b.P NÃO TEM elasticidade preço constante) e neste modelo, nos casos usuais (que exclui bizarrices como os bens de Giffen),  o coeficiente de P  é negativo.

(1)   Ignorando-se o termo aleatório,  se o preço ultrapassar determinado limite, será possível obter quantidades demandadas negativas.

Supondo que a lei da demanda funcione, e que o coeficiente do preço seja negativo, e então aumentos do preço levam a reduções da quantidade demandada, se P cresce demais (vai para + infinito) e b2 < 0 então eu teria ln (Q) indo para um número negativo, ou seja, Q tenderia a zero. Incidentalmente, esta é uma das vantagens de um modelo do tipo log-log como esse, evita constrangimentos como Q < 0.

A afirmativa é falsa.

(2)   Se mudarmos as unidades de Q e P para dólares americanos, então a estimativa de b2 na nova equação será igual a sua estimativa obtida na equação em Reais.

Por exemplo, multiplique todos os Q´s e P´s por algum número k e obtenha Q* e P*. Então ln(Q*) = ln(k.Q) = ln(k) + ln(Q) e de maneira análoga ln(P*) = ln(k.P) = ln(k) + ln(P). A equação estimada torna-se: lnQ*i =  c1  + c2  lnP*i + ui      onde c1 e c2 são, a princípio, diferentes dos parâmetros da equação original. Mas, substituindo Q* e P*  leva a: ln(k) + lnQi =  c1  + ln(k) + c2  lnP*i + ui     ou seja,
lnQi =  c1  + c2  lnP*i + ui    e então os coeficientes têm que ser iguais aos da equação original. A afirmativa é verdadeira.

Nota (minha) – eu só não vejo o sentido em transformar as quantidades para outra moeda. No enunciado do problema diz-que que Q é quantidade demandada, isso para mim é o número de unidades de qualquer coisa que o consumidor queira.... O que está sujeito a uma mudança de escala de preços é P, que pode ser escrito em reais, dólares, euros, yuans, .....

Supondo que a gente só mude a escala de P (ou seja, escreva os preços em outra moeda), o que acontece? Q* = Q mas, P* = k.P. Qual será a equação estimada? Ln(Q) = a1 + a2.ln(P*) + u = a1 + a2.ln(k.P) + u = a1 + ln(k) + a2.ln(P) e então o “k” será incorporado no termo constante e a elasticidade preço (a2) será a mesma que no modelo original.


(3)   Se a variável ln Y (Y = renda) for acrescentada ao modelo o coeficiente R2 desta nova regressão será maior ou igual ao coeficiente R2 da regressão original.
Sem dúvida, mas isso não significa que o modelo com mais variáveis seja “melhor”. A afirmativa é verdadeira.


(4)    Se o coeficiente R2 ajustado da regressão com a variável ln Y for maior do que o coeficiente R2 ajustado da regressão original, então necessariamente, o coeficiente de ln Y é estatisticamente significante, ao nível de significância de 5%, em um teste bi-lateral.

Duas boas (e não muito complicadas) referências no assunto são os livros do Gujarati e do Wooldridge.

Alguns pontos importantes:
  • O R2 é sempre uma função não decrescente do número de variáveis explicativas do modelo. Quanto mais variáveis você joga no modelo, o R2 cresce (ou, na pior das hipóteses, fica igual). Por que? Por definição:



onde RSS é a soma do quadrado dos resíduos da regressão (que é função não crescente do número de variáveis explicativas) enquanto o denominador só depende da variável “dependente” Y, não depende das variáveis explicativas. A definição vale da mesma forma se, ao invés de usarmos Y como variável dependente, usarmos Z = ln(Y).

  • O R2 ajustado foi criado para “penalizar” o modelo se inserirmos variáveis explicativas que não tem “boa” capacidade de explicação. Ele é definido como:



onde k é o número de termos da regressão INCLUINDO a constante. Este R2 é chamado de “ajustado” porque corrige cada soma de quadrados pelos seus graus de liberdade.

Pode-se provar que existe uma relação algébrica entre o R2  e  o R2 ajustado, dada por:
Assim, o R2 ajustado é sempre menor ou igual ao R2 “usual” e a afirmativa é falsa – o resto dela só está aí para confundir a sua cabeça!












ANPEC 2000 - Prova de Estatística - Questão 3 resolvida

QUESTÃO 03
Dados os seguintes enunciados envolvendo variáveis aleatórias, é correto afirmar que:
(0)   Se Y* = a + bY2  e  X* = c + dX2, em que a, b, c, d são constantes reais,  (b,d)> 0, E(X) = E(Y)=0, então correlação (Y*, X*) = correlação (Y,X).
(1)   Se (Y,X) possuem uma distribuição Normal bivariada, então, segue-se que              E(Y|X) = a  + b Y, em que a e b dependem dos momentos de Y e X.
(2)   Se X ~ Normal(0,1) então Y= eX tem distribuição lognormal com  E(Y)= e1/2.
(3)    Se  (X,Y) possuem densidade conjunta f(x,y) = f2 e-f y, f >0,  e 0 £ x £ y, então E(X)= 1/f.

SOLUÇÃO
Comentários sobre a teoria subjacente
Quando você estiver tratando de correlação (e de sua versão não padronizada, a covariância), lembre-se que elas são medidas da associação LINEAR entre duas variáveis.
Para isso, vamos às definições:
A covariância entre duas variáveis  aleatórias X1 e X2 é definida como:


 onde  m1 = E(X1) , m2 = E(X2) são as médias das variáveis aleatórias X1 e X2.

A unidade da covariância é o produto das unidades das duas variáveis, e então fica meio complicado saber se a relação (linear) entre  X1 e X2 é “forte” ou “fraca”. Assim, é conveniente trabalhar com uma medida padronizada da covariância, esta medida é o coeficiente de correlação, mostrado a seguir:


Isto é, o coeficiente de correlação é a covariância dividida pelo produto dos desvios padrões das duas variáveis.

Atenção, atenção:
·     Correlação não tem a ver com causalidade! O fato de duas variáveis terem alta correlação não significa que uma “causa” a outra de forma alguma!!!!! Elas apenas “seguem” juntas, e isso pode acontecer devido ao efeito de uma (ou mais) variáveis que não estão sendo consideradas.
·     Correlação e covariância são medidas LINEARES! Só medem a associação linear entre duas variáveis, não medem dependência entre as variáveis. Você pode construir um exemplo em que Y = X2 (ou seja, as duas variáveis são totalmente dependentes), mas a correlação entre elas é zero.
·     Finalmente, correlação (ou covariância) zero só é equivalente a independência no caso de duas variáveis Normais. Ou seja, se X e Y são normais, a condição COV(X, Y) = 0 garante que eles são independentes.

Então podemos começar a examinar as afirmações do texto.

(0)    Se Y* = a + bY2  e  X* = c + dX2, em que a, b, c, d são constantes reais,  (b,d)> 0, E(X) = E(Y)=0, então correlação (Y*, X*) = correlação (Y,X).

Comece pela covariância para resolver isso....

Note que E(Y*) = E(a + bY2) = a + bE(Y2) = a +b.VAR(Y) pois E(Y) = 0 por hipótese.

De maneira análoga:
E(X*) = E(c + dX2) = c + dE(X2) = c +d.VAR(X)

COV (Y*, X*) = E{(a + bY2 – a – b.VAR(Y))( c + dX2 – c – d.VAR(X))}
=b.d.E{(Y2 – VAR(Y)).((X2 – VAR(X))}  e este valor esperado certamente não é a mesma coisa que a COV(X, Y).

A afirmativa é falsa, mesmo que você divida pelos respectivos desvios padrões para obter o coeficiente de correlação.

(1)  Se (Y,X) possuem uma distribuição Normal bivariada, então, segue-se que E(Y|X) = a  + b Y, em que a e b dependem dos momentos de Y e X.

Você pode até não saber nada sobre a Normal bivariada, mas deve suspeitar que a afirmativa é falsa. Você está calculando uma média condicional de Y dado X. De quem ela vai depender? De X, nunca de Y! Pense em E(Y|X) como a média de Y DADO X. Se eu conheço X, como Y vai se comportar? O que pode confundir nesta afirmação é que a média condicional no caso da Normal bivariada é realmente linear, mas estão mostrando a reta errada.

A afirmativa é FALSA.

(2)  Se X ~ Normal(0,1) então Y= eX tem distribuição lognormal com  E(Y)= e1/2.

Essa é clássica. Vai depender de duas coisas:
1)    Que você saiba a definição da distribuição lognormal (e como ela se relaciona com a Normal)
2)    Quem é a função geradora de momentos da Normal (e não da lognormal porque ninguém sabe isso de cabeça....) pois isso vai te permitir avaliar se a segunda afirmação é falsa ou verdadeira

Então vamos ao fatos...
Em PRIMEIRO LUGAR – UMA VARIÁVEL LOGNORMAL NÃO É O LOG DE UMA NORMAL!!!!!!!! Preciso escrever com uma letra maior ainda prá você se lembrar?

E por que não? Fácil – qual o intervalo de definição de uma Normal? Os números reais, né? Ou seja, menos infinito a mais infinito. E eu te pergunto: “dá prá tirar log de número negativo??” Se você respondeu sim a esta pergunta ou está na hora de você ir dormir, ou você tem que parar e estudar Cálculo....

Bem, se não dá para tirar log (ou ln ou qualquer outra base que você prefira) de uma variável Normal, então o que pode ser? Adivinhou, a função inversa do log, a exponencial, o que nos leva a esta belíssima e charmosa definição:

Se X é uma variável Normal com média m e variância s2 então Y = eX tem distribuição lognormal.

Agora a parte mais “cascuda” da estória...

Lembre-se da definição da função geradora de momentos (fgm) de uma v.a. (variável aleatória). Vou pensar só no caso de uma v.a. contínua que é o que nos interessa neste momento...

A fgm de uma variável contínua com densidade f(x) é dada por:






Bem, talvez você já tenha suspeitado que esta integral nem sempre converge e é por isso que muitas vezes a gente usa a função característica (que sempre converge) mas tem o inconveniente de ser uma integral nos números complexos.

Voltando agora ao nosso problema, se você quiser fazer umas continhas vai ver que, para uma variável N(0,1), a fgm é dada por: M(t) = exp(t2/2).

E o que isso tem a ver com a média de Y na lognormal? Fácil!

Note que:

E(Y) = E(eX) e o lado direito desta equação é igualzinho à fgm de X (que é uma variável N(0,1)), quando a gente substitui t por 1. Ou seja, é a fgm de X avaliada em t = 1.

Logo:
E(Y) = E(eX) = M(1) = exp(12/2) = exp(1/2) = e1/2

A afirmativa é VERDADEIRA.

(3)  Se  (X,Y) possuem densidade conjunta f(x,y) = f2 e-f y, f >0,  e 0 £ x £ y, então E(X)= 1/f.
Pare, olhe, pense – só então comece a fazer contas enlouquecidamente....
Note que isso é uma densidade CONJUNTA para X e Y. E cadê o X? Não está claramente na fórmula de f(x,y), está no domínio da densidade conjunta!

E qual a “cara” desse domínio? Ao invés de termos X e Y restritos apenas pelo valor zero, a reta y = x tem um papel importante. Por exemplo, o ponto (x = 1, y  = 2) está dentro do domínio da função, mas (x = 2, y  = 1) não está.

Então, o domínio da função densidade conjunta é dado pela região hachurada no seguinte gráfico:

Para achar a média de X precisamos achar sua densidade marginal, ou seja, integrar a densidade conjunta para todo Y. Depois disso, é só usar a fórmula habitual da média de uma distribuição de probabilidade (na verdade você poderia fazer as duas coisas numa só etapa a partir da conjunta, mas eu acho que fica mais claro se a gente dividir isso em duas partes...)

A densidade marginal de X é:




Ou seja, a densidade marginal de X é uma exponencial, e pela sua parametrização podemos notar que a média é E(X) = 1/f.  Neste caso nem foi necessário calcular a média, pois caímos numa densidade tão conhecida que a gente já reconhece a média “de cara”.

Se você não tivesse notado isso, o que deveria fazer? A conta...






e vai ter um trabalhinho aí tendo que resolver esta integral por partes.


A afirmativa é VERDADEIRA.

ANPEC 2000 - prova de Estatística - Questão 2 resolvida

QUESTÃO 02
A tabela abaixo apresenta, para os anos de 1994 e 1999,  dados hipotéticos sobre  preços e quantidades vendidas de 6 diferentes produtos comercializados por certa companhia. Calcule a variação percentual dos preços dos produtos da companhia neste período, utilizando o índice de Paasche.

           1994
             1999
Tipo de pro  duto
Preço
Quantidade Vendida
Preço
Quantidade Vendida
A
5
 80
20
  100
B
7
100
6
1000
C
2
200
5
  200
D
3
600
4
  500
E
1
300
2
  200
F
2
100
3
  200

SOLUÇÃO ( a resposta é 20)
Aqui recorro sem pestanejar à Wikipedia…. O link é:

 

Lembre-se que você quer calcular um indíce que mede a variação dos preços (não importa se por Paasche ou Laspeyres) então o que muda são os preços, as quantidades ficam fixas (seja no período inicial ou final, aí é que você vai ter um índice ou outro – Laspeyres (lááa atrás, ou seja, no período inicial e Paasche no período final).


Da  Wikipedia, o índice de Paasche é calculado como:
 E o de Laspeyres é dado por:



Onde P é a variação do nível dos preços nos dois períodos t0  é o período base (em geral o primeiro ano) e  tn  é o
período no qual o índice de preços está sendo calculado.

Então no cálculo do índice de preços de Paasche (que é o solicitado no problema) usamos as quantidades dos produtos no período final.
Uma planilha Excel ajuda a mostrar o cálculo:

1994
1999
Tipo de produto
Preço
Quantidade Vendida
Preço
Quantidade Vendida
Paasche - Numerador
Paasche - Denominador
Índice Paasche Preços
A
5
80
20
100
2000
500

B
7
100
6
1000
6000
7000

C
2
200
5
200
1000
400

D
3
600
4
500
2000
1500

E
1
300
2
200
400
200

F
2
100
3
200
600
400

SOMA
12000
10000
1.2


A coluna em amarelo (das quantidades em 1999) é a única que interessa, pois só precisamos multiplicar os preços pela quantidade no ano final. A coluna chamada “Paasche Numerador” contém os preços de 1999 multiplicados pelas quantidades de 1999. A coluna “Paasche Denominador” contém os preços de 1994 multiplicados pelas quantidades de 1999. As linhas correspondentes às somas são, obviamente, os somatórios das colunas indicadas. O índice de Paasche é a razão entre estas somas e é 1,2. Logo, a variação percentual dos preços, segundo este índice, foi de 20% no período.

Apenas para recordar, vamos calcular o índice de preços de Laspeyres nesta mesma situação. Lembre-se que no cálculo do Laspeyres usamos as quantidades “lá atra´s”, ou seja, no ano base...

Note que o resultado é bastante diferente, a variação percentual dos preços é agora cerca de 71% no período.


1994
1999
Tipo de produto
Preço
Quantidade Vendida
Preço
Quantidade Vendida
Laspeyres - Numerador
Laspeyres - Denominador
Índice Laspeyres Preços
A
5
80
20
100
1600
400

B
7
100
6
1000
600
700

C
2
200
5
200
1000
400

D
3
600
4
500
2400
1800

E
1
300
2
200
600
300

F
2
100
3
200
300
200

SOMA
6500
3800
1.71