NP egzaminas
1-as seminaras
a) Užrašykite „tipinį“ darbo užmokesčio priklausomybės nuo darbuotojo amžiaus regresinį modelį. b) Surašykite punktais modelio prielaidas. c) Ar modelis parametrinis? Kaip vertintumėte parametrus? Ar tam reikia kokių nors prielaidų? Užrašykite nuostolių/tikslo funkcijos bei įvertinio pavyzdį. d) Tegu tikrasis modelis yra deterministinis: w = 1000 + exp(2 + 0.2a- 0.002a2). Tarkime turite tą atitinkančius stebėjimus su amžiumi išdėstytu pamečiui nuo 16 iki 80-ies metų. Ar įvertiniai taikant jūsų pasiūlytąjį modelį ir įvertinį pagrįsti? Kas atsitinka? Iliustruokite (analitiškai arba/ir naudodami statistinį paketą). e) Kaip spręstumėte šią problemą, jei tikrasis sąryšis nebūtų žinomas? Pabandykite praktiškai. f) Užrašykite bendriausią kokią galite parametrinio modelio formą. Ar ji gali būti įvertinta taikant aukščiau pateiktą nuostolių/tikslo funkciją? Ar tai regresinis modelis? Ko tam reikia? g) Užrašykite tiesinio, netiesinio parametrinio bei neparametrinio regresinio modelio pavyzdžius. Pateikite hipotezių, kurias galite ir negalite tikrinti šiuose modeliuose pavyzdžių. h) Ar galite šiais modeliais prognozuoti atlyginimo dydžius pagal amžių, kuris nepateko į turimoje imtyje stebimą?
1-as laboratorinis
Informacija apie R funkcijas/paketus: ?density {stats} ?bandwidth {stats} ?npudensbw {np} ?norMix {nor1mix} (jei norite) Apie np paketą bei jo funkcijas pasiskaitykite Hayfield and Racine (2008) “Nonparametric Econometrics: The np Pacakge”. Kodai iš J.Racine puslapio: primer_code.zip/univariate_mixture.R primer_code.zip/wage1.R Solutions_code.zip/Chapter_1.R 1) Atkartokite “Nonparametric econometrics: A primer” 2-o skyriaus rezultatus su univariate_mixture.R (patartina užkomentuoti grafikos spausdinimą į *.ps, galbūt panaudoti par(mfrow=c(3,3)), ištrinti pasikartojimus, etc.).
2) Aukščiau dirbome su viena realizacija. Ar galima daryti išvadą ja remiantis apie įvertinių gerumą? Ar išvada galioja visiems imčių dydžiams? Visiems skirstiniams? Atlikite 1000 replikacijų Monte Carlo imitaciją (nepamirškite nuimti set.seed) palygindami „plug-in“ bei „cv.ls“ įvertinių vidutinės kvadratinės paklaidos tikslumą (pataškiui), kai a) n=100, 200, 1000 iš to paties skirstinio, b) kai mišinio tikimybės yra 1/3 bei 2/3 kaip aptarta aukščiau, c) kai vidurkiai pakeičiami į -10 bei 10, d) kai kairioji mišinio su vienodomis tikimybėmis tankio funkcija yra normaliojo kaip ir a) atveju, o dešiniau esanti tankio funkcija yra pakeičiama į Student‘o (žr. ?dt) su trim laisvės laipsniais? 3) Atkartokite bei pasinagrinėkite wage1.R bei Chapter_1.R (žr. uždavinius 1.1. bei 1.17.). Vienmačiais atvejais palyginkite rezultatus su geriausiu rezultatu, kurį galite gauti taikydami density funkciją.
2-as laboratorinis
Informacija apie R funkcijas/paketus: ?npregbw {np} ?npreg{np} ?npplot{np}
1) Atkartokite “Nonparametric econometrics: A primer” 4-o skyriaus rezultatus su sin.R (patartina užkomentuoti grafikos spausdinimą į *.ps, etc.).
2) Atkartokite “Nonparametric econometrics: A primer” 4-o skyriaus rezultatus su wage1_ll.R. Patyrinėkite summary(npregbw). Ar viskas pažįstama/aišku? Kaip buvo parinktas lango pločio parametras? Ar rezultatai jautrūs cv.ls naudojimui vietoj to? Įvertinkite regresijos bei poveikio funkcijas naudodami lokalios konstantos metodą. Vertinant „iš akies“, kas labiau skiriasi? Kuriais rezultatais labiau tikėti? Kodėl? Patikrinkite veiksnių reikšmingumą su npsigtest. 3) Atkartokite “Nonparametric econometrics: A primer” 4-o skyriaus rezultatus su prestige.R. Taip pat užkomentuokite duomenų nuskaitymą ir jį pakeiskite į
library(car)
data(Prestige)
attach(Prestige)
Kas ne taip? Pažiūrėkite ?npplot bei panaudokite šią funkciją. Ar gebate gauti A primer pateiktus rezultatus? Keisdami normuojančios konstantos reikšmę pažiūrėkite, kas gaunasi, jei taikant lokalios konstantos regresiją normuojanti konstanta={1,3,6,9,12}? Pabandykite tą patį padaryti savo generuotuose duomenyse su nesusijusiu kintamuoju. Ar rezultatai skiriasi? Kodėl?
4) Atkartokite bei pasinagrinėkite Chapter_2.R (žr. 2.21. uždavinį). 5) Paskutinis, bet pats svarbiausias! Atkartokite bei išsiaiškinkite Hayfield and Racine (2008) “Nonparametric Econometrics: The np Pacakge” 3 skirsnį.
3-ias laboratorinis
Informacija apie R funkcijas/paketus: data(cars), data(ChickWeight), ?npregbw {np} ?npreg{np} ?npplot{np}, ?resettest{lmtest}
1) Atkartokite ir išsinagrinėkite per paskaitą aptartą automobilių greičio ir stabdymo kelio pavyzdį (kodas: http://web.vu.lt/mif/v.kvedaras/files/2014/10/cars_2014.pdf). Nustatykite, koks būtų tikėtinas 19.6 mph greičiu važiuojančio automobilio stabdymo kelias ir jo 95% pasikliovimo inervalas?
2) Atkartokite ir išsinagrinėkite per paskaitą aptartą viščiukų uždavinį (kodas: http://web.vu.lt/mif/v.kvedaras/files/2014/10/chick-weight_2014.pdf). Apskaičiuokite, kokį poveikį turi kitais požiūriais tipinio viščiuko dietos keitimas (nagrinėjant visas keturias). Kas šiuo atveju yra tipinis? Ar vidurkį čia prasminga taikyti?
4-as laboratorinis
Informacija apie R funkcijas/paketus: ?npcmstest {np} , ?npsigtest {np}
1) Atkartokite ir išsinagrinėkite 7-o skyriaus 1-ą pavyzdį (neparametrinės specifikacijos testas). Įvertinkite asimptotinio ir saviranka paremto testo rezultatų vienodumą bei tikslumą:
a) naudodami atlyginimų duomenis. Naudojant ir nenaudojant aiškinančiųjų kintamųjų tankio funkcijos daugiklio. Ar skiriasi rezultatai ir kodėl?
b) Monte Carlo būdu sugeneruodami savo pasirinktus tiesinį ir netiesinį modelius. Nustatykite, ar testo empirinis reikšmingumas atitinka aktualų nominalųjį pvz. 5%, bei kokia yra testo galia prie šio nominalaus reikšmingumo?
c) MC būdu ištirkite testo veikimą su ir be tankio funkcijos daugiklių, kai aiškinančiųjų kintamųjų tankio funkcijos atrama yra su trūkiais.
2) Atkartokite ir išsiaiškinkite wage1_sigtest pavyzdį.
a) Palyginkite LC, LL reikšmingumo testų bei lango pločiu paremtos reikšmingumo analizės rezultatus. Ar jie gali nesutapti ir kodėl? Kada kuris naudingas?
b) patikrinkite, kaip rezultatai priklauso nuo iid ir wild savirankos taikymo. Kaip ir kodėl?
c) Taikydami MC ištirkite tuos pačius aspektus kai patys žinote, kokias savybes tenkinančius duomenis generuojate.
Seminarui skaitytini straipsniai: Lengvam pasiskaitymui: http://home.uchicago.edu/~llian/paper/Nonparametric_Density_and_Regression_Estimation.pdf http://www.unc.edu/~saraswat/teaching/econ870/fall11/AY_98.pdf Šiek tiek smagesniam skaitymui: http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.29.9839&rep=rep1&type=pdf http://econ.la.psu.edu/~hbierens/ICM_REVIEW.PDF Seminarui skaitytini straipsniai II (pasirinkti pagal skonį iš kiekvienos tematikos): http://emlab.berkeley.edu/~pkline/papers/wild_higher.pdf (ar/ir http://www.ism.ac.jp/editsec/aism/pdf/049_1_0001.pdf / http://www.jstor.org/stable/2241579) http://www1.carleton.ca/economics/ccms/wp-content/ccms-files/seminar-slides-120914.pdf (ar/ir http://projecteuclid.org/DPubS/Repository/1.0/Disseminate?view=body&id=pdf_1&handle=euclid.aos/1176349025 )
5-as laboratorinis
Gali būti naudinga pasiskaityti: http://en.wikipedia.org/wiki/Bootstrapping_(statistics)#Wild_bootstrap http://ww2.coastal.edu/kingw/statistics/R-tutorials/resample.html Informacija apie R funkcijas/paketus: ?npplot {np} ?sample {base} ?boot {boot} ?bootstrap {bootstrap}
1) Tegu duomenis generuojantis procesas (DGP) yra kaip Nonparametric econometrics: A primer” 4-o skyriaus su sin.R.
2) Tegu DGP yra kaip 1) užduotyje.
P.S. Jei ketintumėte naudoti paralelizavimą, gal praverstų (žr. ir http://cran.r-project.org/web/packages/doParallel/vignettes/gettingstartedParallel.pdf): require(doParallel) cl <- makeCluster(2) ## branduoliu skaicius registerDoParallel(cl) ptm <- proc.time() require(foreach) btsr<-foreach(icount(iter),.combine=’rbind’)%dopar%{ … } ecdf(btsr) hist(btsr) stopCluster(cl) (proc.time() – ptm)/60 ## trukme minutemis
6-as laboratorinis
Informacija apie R funkcijas/paketus: ?npcdensbw{np} ?npcdistbw{np} ?npqreg{np} ?ordered{base} ?factor{base} ?glm {stats} ?npconmode{np} Kodai iš J.Racine puslapio: primer_code.zip/Italy/con_den/Italy.R primer_code.zip/Italy/quantile/quantile.R primer_code.zip/birthweight/np.R
1) Atkartokite “Nonparametric econometrics: A primer” 3-io skyriaus rezultatus su Italy/con_den/Italy.R.
2) Pabandykite atkartoti “Nonparametric econometrics: A primer” 3-io skyriaus rezultatus su Italy/quantile/quantile.R. Patyrinėkite summary(npregbw).
3) Norėsime vertinti sąlyginę modą. Kurios funkcijos mums reikės: npcdensbw ar npcdistbw? Atkartokite “Nonparametric econometrics: A primer” 3-io skyriaus rezultatus su birthweight/np.R.
4) Atlikite „Nonparametric Econometrics” knygos 6.6 poskyrio imitaciją. Ar rezultatai pasitvirtina?
7-as laboratorinis („atgal į praeitį“ bei „pirmyn į ateitį“)
Informacija apie R funkcijas/paketus: ?npudens{np} ?npreg{np} ?optim{stats} ?integrate{stats} ?adaptIntegrate {cubature} Kodai iš J.Racine puslapio: primer_code.zip/univariate_mixture.R primer_code.zip/sin/sin.R
1) Prisiminkite “Nonparametric econometrics: A primer” 2-o skyriaus rezultatus su univariate_mixture.R.
2) Prisiminkite “Nonparametric econometrics: A primer” 4-o skyriaus rezultatus su sin.R. Naudodami sin modelį, sugeneruokite {y,x} duomenis su n=1000.
3) Paimkite mėnesinius Lietuvos nedarbo ir infliacijos (vartotojų) duomenis. Jei reikia, stacionarizuokite duomenis. Atidėkite 12 duomenų modelio tikslumo vertinimui.
4) Patyrinėkime instrumentinių kintamųjų vertinimą su diskrečiais aiškinančiaisiais.
Seminarui skaitytini straipsniai III (pasirinkti patinkantį) http://www.chrispapageorgiou.com/papers/HPP.pdf http://www2.binghamton.edu/economics/wp06/WP0603.pdf http://economics.ucr.edu/papers/papers01/01-29.pdf
Iliustracijų kodai
http://web.vu.lt/mif/v.kvedaras/files/2014/10/cars_2014.pdf
http://web.vu.lt/mif/v.kvedaras/files/2014/10/chick-weight_2014.pdf
http://web.vu.lt/mif/v.kvedaras/files/2014/12/growth-eqs.pdf
http://web.vu.lt/mif/v.kvedaras/files/2014/12/binominiai.pdf