Neparametrinė

 

NP egzaminas

Rezultatai

1-as seminaras

  a)      Užrašykite „tipinį“ darbo užmokesčio priklausomybės nuo darbuotojo amžiaus regresinį modelį. b)      Surašykite punktais modelio prielaidas. c)      Ar modelis parametrinis? Kaip vertintumėte parametrus? Ar tam reikia kokių nors prielaidų? Užrašykite nuostolių/tikslo funkcijos bei įvertinio pavyzdį. d)      Tegu tikrasis modelis yra deterministinis: w = 1000 + exp(2 + 0.2a- 0.002a2). Tarkime turite tą atitinkančius stebėjimus su amžiumi išdėstytu pamečiui nuo 16 iki 80-ies metų. Ar įvertiniai taikant jūsų pasiūlytąjį modelį ir įvertinį pagrįsti? Kas atsitinka? Iliustruokite (analitiškai arba/ir naudodami statistinį paketą). e)      Kaip spręstumėte šią problemą, jei tikrasis sąryšis nebūtų žinomas? Pabandykite praktiškai. f)       Užrašykite bendriausią kokią galite parametrinio modelio formą. Ar ji gali būti įvertinta taikant aukščiau pateiktą nuostolių/tikslo funkciją? Ar tai regresinis modelis? Ko tam reikia? g)      Užrašykite tiesinio, netiesinio parametrinio bei neparametrinio regresinio modelio pavyzdžius.  Pateikite hipotezių, kurias galite ir negalite tikrinti šiuose modeliuose pavyzdžių. h)      Ar galite šiais modeliais prognozuoti atlyginimo dydžius pagal amžių, kuris nepateko į turimoje imtyje stebimą?

1-as laboratorinis

  Informacija apie R funkcijas/paketus: ?density {stats} ?bandwidth {stats} ?npudensbw {np} ?norMix {nor1mix} (jei norite)   Apie np paketą bei jo funkcijas pasiskaitykite Hayfield and Racine (2008) “Nonparametric Econometrics: The np Pacakge”.   Kodai iš J.Racine puslapio: primer_code.zip/univariate_mixture.R primer_code.zip/wage1.R Solutions_code.zip/Chapter_1.R   1)      Atkartokite “Nonparametric econometrics: A primer”  2-o skyriaus rezultatus su univariate_mixture.R (patartina užkomentuoti grafikos spausdinimą į *.ps, galbūt panaudoti par(mfrow=c(3,3)), ištrinti pasikartojimus, etc.).

  1. Kaip mišinio tankio grafikas keičiasi didinant tikimybę, jog x realizuosis iš didesnį vidurkį turinčio normaliojo skirstinio (pvz., atitinkamai su tikimybėmis 1/3 bei 2/3 vietoje po 1/2)? Kodėl? Kaip turėtų keistis vidurkis bei dispersija?
  2. Naudojant funkciją density, kode yra naudojamas “rule-of-thumb” lango pločio parametro parinkimo metodas. Paskaitykite ?density bei ?bandwidth. Žinote, kad “plug-in” turėtų būti geresnis. Kaip pasikeičia tankio įverčiai naudojant jį? Ant vieno grafiko nubrėžkite: i) tankio funkcijos reikšmes, įvertį su density (“rule-of-thumb”), įvertį su density (“plug-in”),  įvertį su density (“plug-in”), bei npudensbw (iš np). Kuris akiai atrodo priimtiniausias ir kodėl? Kurio nenaudotumėte? Naudodami system.time(bw <- npudensbw(~x,bwmethod=“cv.ls“)) bei system.time(density(x,bw=’SJ’)) palyginkite laiko sąnaudas. Ar jos atrodo adekvačios gaunamam rezultatui (jei ignoruosime tai, kad npudensbw dar priskaičiuoja kitų dalykų)?
  3. Naudodami obects(bw) bei ?npudensbw patyrinėkite, kas jums pažįstama?

2)      Aukščiau dirbome su viena realizacija. Ar galima daryti išvadą ja remiantis apie įvertinių gerumą? Ar išvada galioja visiems imčių dydžiams? Visiems skirstiniams? Atlikite 1000 replikacijų Monte Carlo imitaciją (nepamirškite nuimti set.seed) palygindami „plug-in“ bei „cv.ls“ įvertinių vidutinės kvadratinės paklaidos  tikslumą (pataškiui), kai a) n=100, 200, 1000 iš to paties skirstinio, b)  kai mišinio tikimybės yra 1/3 bei 2/3 kaip aptarta aukščiau, c) kai vidurkiai pakeičiami į -10 bei 10, d) kai kairioji mišinio su vienodomis tikimybėmis tankio funkcija yra normaliojo kaip ir a) atveju, o dešiniau esanti tankio funkcija yra pakeičiama į Student‘o (žr. ?dt) su trim laisvės laipsniais?   3)      Atkartokite bei pasinagrinėkite wage1.R bei Chapter_1.R (žr. uždavinius 1.1. bei 1.17.). Vienmačiais atvejais palyginkite rezultatus su geriausiu rezultatu, kurį galite gauti taikydami density funkciją.

2-as laboratorinis

Informacija apie R funkcijas/paketus: ?npregbw {np} ?npreg{np} ?npplot{np}

1) Atkartokite “Nonparametric econometrics: A primer”  4-o skyriaus rezultatus su sin.R (patartina užkomentuoti grafikos spausdinimą į *.ps, etc.).

  1. Patikrinkite, kaip keičiasi npregbw bei npreg rezultatai naudojant Hurvisch et al. (1998) kriterijaus minimizavimą (bwmethod=“cv.aic“)? Kokį poveikį neparametriniams regresijos bei ribinio poveikio funkcijų įverčiams turi: a) stebėjimų skaičiaus išaugimas (pvz., n=500); b) standartinės paklaidos padidinimas (pvz., nuo 0.25 iki 1 ar 10; c) 3 pi vietoje 2 pi sinuso funkcijoje? Kodėl?  Kas atsitinka taikant tiesinę regresiją? Kokia išvada būtų daroma šiuo atveju?
  2. Naudodami for ar foreach 1000 kartų sugeneruokite bei neparametriškai įvertinkite y-o regresiją nuo nesusijusio n.i.d.(0,1) kintamojo (?rnorm) bei išsaugokite y-o vidurkį. Koks vidutinis h naudojant mažiausių kvadratų bei koreguoto AIC kriterijus lokalios konstantos bei lokalaus trendo modeliuose? Kuris variantas/derinys geresnis? Kodėl? Nubrėžkite paskutinės iteracijos y-ą, jo vidurkį bei visais būdais gautus neparametrinius įverčius. Ar šios realizacijos rezultatai sutampa su ankstesne išvada daryta pagal iteracijų vidurkius? Ar turi sutapti?

2) Atkartokite “Nonparametric econometrics: A primer”  4-o skyriaus rezultatus su wage1_ll.R. Patyrinėkite summary(npregbw).  Ar viskas pažįstama/aišku? Kaip buvo parinktas lango pločio parametras? Ar rezultatai jautrūs cv.ls naudojimui vietoj to? Įvertinkite regresijos bei poveikio funkcijas naudodami lokalios konstantos metodą. Vertinant „iš akies“, kas labiau skiriasi? Kuriais rezultatais labiau tikėti? Kodėl? Patikrinkite veiksnių reikšmingumą su npsigtest. 3) Atkartokite “Nonparametric econometrics: A primer”  4-o skyriaus rezultatus su prestige.R. Taip pat užkomentuokite duomenų nuskaitymą ir jį pakeiskite į

library(car)

data(Prestige)

attach(Prestige)

Kas ne taip? Pažiūrėkite ?npplot bei panaudokite šią funkciją. Ar gebate gauti A primer pateiktus rezultatus? Keisdami normuojančios konstantos reikšmę pažiūrėkite, kas gaunasi, jei taikant lokalios konstantos regresiją normuojanti konstanta={1,3,6,9,12}? Pabandykite tą patį padaryti savo generuotuose duomenyse su nesusijusiu kintamuoju. Ar rezultatai skiriasi? Kodėl?

4)  Atkartokite bei pasinagrinėkite Chapter_2.R (žr. 2.21. uždavinį). 5) Paskutinis, bet pats svarbiausias! Atkartokite bei išsiaiškinkite Hayfield and Racine (2008) “Nonparametric Econometrics: The np Pacakge” 3 skirsnį.

3-ias laboratorinis

Informacija apie R funkcijas/paketus: data(cars), data(ChickWeight), ?npregbw {np} ?npreg{np} ?npplot{np}, ?resettest{lmtest}

1) Atkartokite ir išsinagrinėkite per paskaitą aptartą automobilių greičio ir stabdymo kelio pavyzdį (kodas: http://web.vu.lt/mif/v.kvedaras/files/2014/10/cars_2014.pdf). Nustatykite, koks būtų tikėtinas 19.6 mph greičiu važiuojančio automobilio stabdymo kelias ir jo 95% pasikliovimo inervalas?

2) Atkartokite ir išsinagrinėkite per paskaitą aptartą viščiukų uždavinį (kodas: http://web.vu.lt/mif/v.kvedaras/files/2014/10/chick-weight_2014.pdf). Apskaičiuokite, kokį poveikį turi kitais požiūriais tipinio viščiuko dietos keitimas (nagrinėjant visas keturias). Kas šiuo atveju yra tipinis? Ar vidurkį čia prasminga taikyti?

 4-as laboratorinis

Informacija apie R funkcijas/paketus: ?npcmstest {np} , ?npsigtest {np}

1) Atkartokite ir išsinagrinėkite 7-o skyriaus 1-ą pavyzdį (neparametrinės specifikacijos testas). Įvertinkite asimptotinio ir saviranka paremto testo rezultatų vienodumą bei tikslumą:

a) naudodami atlyginimų duomenis. Naudojant ir nenaudojant aiškinančiųjų kintamųjų tankio funkcijos daugiklio. Ar skiriasi rezultatai ir kodėl?

b) Monte Carlo būdu sugeneruodami savo pasirinktus tiesinį ir netiesinį modelius. Nustatykite, ar testo empirinis reikšmingumas atitinka aktualų nominalųjį pvz. 5%, bei kokia yra testo galia prie šio nominalaus reikšmingumo?

c) MC būdu ištirkite testo veikimą su ir be tankio funkcijos daugiklių, kai aiškinančiųjų kintamųjų tankio funkcijos atrama yra su trūkiais.

 

2) Atkartokite ir išsiaiškinkite wage1_sigtest pavyzdį.

a) Palyginkite LC, LL reikšmingumo testų bei lango pločiu paremtos reikšmingumo analizės rezultatus. Ar jie gali nesutapti ir kodėl? Kada kuris naudingas?

b) patikrinkite, kaip rezultatai priklauso nuo iid ir wild savirankos taikymo. Kaip ir kodėl?

c) Taikydami MC ištirkite tuos pačius aspektus kai patys žinote, kokias savybes tenkinančius duomenis generuojate.

 

Seminarui skaitytini straipsniai: Lengvam pasiskaitymui: http://home.uchicago.edu/~llian/paper/Nonparametric_Density_and_Regression_Estimation.pdf http://www.unc.edu/~saraswat/teaching/econ870/fall11/AY_98.pdf Šiek tiek smagesniam skaitymui: http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.29.9839&rep=rep1&type=pdf http://econ.la.psu.edu/~hbierens/ICM_REVIEW.PDF  Seminarui skaitytini straipsniai II (pasirinkti pagal skonį iš kiekvienos tematikos): http://emlab.berkeley.edu/~pkline/papers/wild_higher.pdf  (ar/ir http://www.ism.ac.jp/editsec/aism/pdf/049_1_0001.pdf / http://www.jstor.org/stable/2241579) http://www1.carleton.ca/economics/ccms/wp-content/ccms-files/seminar-slides-120914.pdf  (ar/ir  http://projecteuclid.org/DPubS/Repository/1.0/Disseminate?view=body&id=pdf_1&handle=euclid.aos/1176349025 )

5-as laboratorinis

Gali būti naudinga pasiskaityti: http://en.wikipedia.org/wiki/Bootstrapping_(statistics)#Wild_bootstrap http://ww2.coastal.edu/kingw/statistics/R-tutorials/resample.html Informacija apie R funkcijas/paketus: ?npplot {np} ?sample {base} ?boot {boot} ?bootstrap {bootstrap}

1)    Tegu duomenis generuojantis procesas (DGP) yra kaip Nonparametric econometrics: A primer”  4-o skyriaus su sin.R.

  1. Naudodami lc bei ll įvertinius ir npplot funkciją, patikrinkite ar/kiek skiriasi asimptotinis  ir savirankos būdu sukonstruoti pasikliovimo intervalai, kai n=50,100,2000.  Ar brėžiate „išsibarstymo“ ar pasikliautinius intervalus? Koks savirankos tipas panaudotas? Ar tikroji funkcija patenka į pasikliovimo intervalą, kai pasikliovimo lygmuo yra 75%, 90%, 95%, 99%?
  2. Labiau tikėti savirankos ar asimptotiniais ir kodėl? Nubrėžkite faktinę regresijos funkciją. Ar galvojimas pasitvirtino, – kodėl? Atlikite Monte Carlo eksperimentą, patvirtinantį ar paneigiantį teiginį, kad savirankos pasikliautiniai intervalai tikslesni.

2)    Tegu DGP yra kaip 1) užduotyje.

  1. Atlikite Yatchew 8.2 lentelėje (p.161) pateiktas užduotis ir palyginkite gautus pasikliovimo intervalus tarpusavyje bei su npplot pateikiamais, kai n=50. Kurie turėtų daugiau mažiau sutapti, jei būtų daromas labai didelis skaičius savirankos iteracijų? Jei n=2000, kaip keistųsi išvados (ir patikrinkite, ar keičiasi)?
  2. Dabar naudokite heteroskedastiškas paklaidas ankstesniame DGP ir pakartokite  Yatchew 8.2 lentelėje (p.161) pateiktas užduotis, papildomai atlikdami ir jungtinį savirankos būdą. Kurie savirankos metodai dabar turėtų veikti? Atlikite tą patvirtinantį ar paneigiantį Monte Carlo eksperimentą.

P.S. Jei ketintumėte naudoti paralelizavimą, gal praverstų (žr. ir http://cran.r-project.org/web/packages/doParallel/vignettes/gettingstartedParallel.pdf): require(doParallel) cl <- makeCluster(2) ## branduoliu skaicius registerDoParallel(cl) ptm <- proc.time() require(foreach) btsr<-foreach(icount(iter),.combine=’rbind’)%dopar%{ … } ecdf(btsr) hist(btsr) stopCluster(cl) (proc.time() – ptm)/60 ## trukme minutemis

6-as laboratorinis

Informacija apie R funkcijas/paketus: ?npcdensbw{np} ?npcdistbw{np} ?npqreg{np} ?ordered{base} ?factor{base} ?glm {stats} ?npconmode{np}   Kodai iš J.Racine puslapio: primer_code.zip/Italy/con_den/Italy.R primer_code.zip/Italy/quantile/quantile.R primer_code.zip/birthweight/np.R

1) Atkartokite “Nonparametric econometrics: A primer”  3-io skyriaus rezultatus su Italy/con_den/Italy.R.

  1. Atkreipkite dėmesį, kad metai yra naudojamas kaip ordinalus kintamasis. Kodėl? Įvertinkite h naudodami metus kaip tolydų kintamąjį (jei reikia, tam naudokite as.numeric funkciją), taip pat kaip nominalų (factor). Kaip skiriasi rezultatai (summary(bw))? Naudodami dev.new() ar/ir mfpar() nubrėžkite grafikus visais atvejais.  Pasukiokite keisdami theta ar/ir phi reikšmes, kad skirtumas būtų gerai matomas. Kuriuo variantu remtis toliau modeliuojant? Kodėl? Kuris mažiausiai pagrįstas?
  2. Kokia Italy duomenų struktūra? Kodėl plot(Italy) brėžia box-plot diagramas? Paimkite Lietuvos  BVP ir nubrėžkite plot(Y_LT).  Ar gaunate ką nors panašaus? Kodėl? Ar galima gauti? O jei naudotume Lietuvos regionuose sukuriamą PV? Ar jau panašu? Ar box-plot? Kodėl? Įvertinkite Lietuvos regionuose sukuriamos PV sąlyginę tankio funkciją metų atžvilgiu. Ar kas įdomaus išryškėja?

2) Pabandykite atkartoti “Nonparametric econometrics: A primer” 3-io skyriaus rezultatus su Italy/quantile/quantile.R. Patyrinėkite summary(npregbw).

  1. Kodėl meta klaidą? Ką norime gauti? Ko tam reikia? O ką naudojame? Ištaisykite. Kol vertins, atsakykite į kausimą, kurį sąlyginės pasiskirstymo funkcijos įvertinį naudojate, koks h parinkimas ir t.t., t.y. pastudijuokite tinkamą pagalbą?
  2. Įvertinkite sąlyginius kvartilius Lietuvos regionų sukuriamos PV kintant metams. Ar tankio funkcija informatyvesnė nei kvartilių charakterizavimas?

3) Norėsime vertinti sąlyginę modą. Kurios funkcijos mums reikės: npcdensbw ar npcdistbw?  Atkartokite “Nonparametric econometrics: A primer”  3-io skyriaus rezultatus su birthweight/np.R.

  1. Kol vertins neparametrinį modelį, išsinagrinėkite duomenis. Ar viskas jums (pa)tinka?
  2. Išsitirkite bw bei model.np objektus. Ar pastebite tą patį (ką nors)? Pagrįsdami pakeiskite tai ką reikia į tinkamus ir palyginkite naujo modelio tikslumą su ankstesniaisiais.  Greta to, apsimeskite dar daugiau, kad be jau atliktų pataisymų yra kintamųjų, kurių tipu abejojate (pasirinkite hipotetinį, bet potencialiai įmanomą), ir įvertinkite modelį keliais variantais. Ar pasiteisino įtarimas modelio prognozės tikslumo prasme.
  3. Iki šiol viskas buvo daroma imtyje. Panaudokite CV. Ar (visų) modelių tikslumo rezultatai išlieka galioti?

4) Atlikite „Nonparametric Econometrics” knygos  6.6 poskyrio imitaciją. Ar rezultatai pasitvirtina?

7-as laboratorinis („atgal į praeitį“ bei „pirmyn į ateitį“)

Informacija apie R funkcijas/paketus: ?npudens{np} ?npreg{np} ?optim{stats} ?integrate{stats} ?adaptIntegrate {cubature}   Kodai iš J.Racine puslapio: primer_code.zip/univariate_mixture.R primer_code.zip/sin/sin.R

1)      Prisiminkite “Nonparametric econometrics: A primer”  2-o skyriaus rezultatus su univariate_mixture.R.

  1. Naudodami teorinį normaliųjų tankio funkcijų mišinio pavidalą, nustatykite medianą, modą, vidurkį, 75% kvantilį.
  2. Dar kartą pasistudijuokite ?npudens bei ?npreg. Naudodami branduolinį tankio įvertį nustatykite šio atsitiktinio dydžio medianos, modos, vidurkio bei 75% kvantilo įverčius. Kai kuriais atvejais galite panaudoti optimizavimo algoritmus (pvz., http://lamages.blogspot.com/2013/03/how-to-use-optim-in-r.html) ir skaitinį integravimą (pvz., http://homepages.math.uic.edu/~jyang06/stat401/handouts/handout8.pdf).

2)     Prisiminkite “Nonparametric econometrics: A primer”  4-o skyriaus rezultatus su sin.R. Naudodami sin modelį, sugeneruokite {y,x} duomenis su n=1000.

  1. Įvertinkite jungtinę (Y,X) bei marginaliąją X tankio funkcijas. Vien iš jų gaukite regresijos funkcijos įvertį. Palyginkite su gauta taikant branduolinį vertinimą. Kokia y prognozė taške x=0.6317, t.y. įvertis E(Y|X=0.6317) ar x=pi/5? Kokie pasikliautiniai intervalai šiuose taškuose (naudokite np rezultatus)? Kuriame taške funkcijos įvertis  įgyja minimumą, kuriame maksimumą?

3)      Paimkite mėnesinius Lietuvos nedarbo ir infliacijos (vartotojų) duomenis. Jei reikia, stacionarizuokite duomenis. Atidėkite 12 duomenų modelio tikslumo vertinimui.

  1. Kiekvienam rodikliui, sudarykite geriausius ARMA bei AR modelius. Įvertinkite modelių gerumą.
  2. Sudarykite rodiklių netiesinius modelius: AR(1), AR(2) bei tokios pat eilės  kaip tiesiniai AR.
  3. Palyginkite prognozių, gautų tiesiniais ir netiesiniais modeliais, tikslumą. Ar rezultatai dera su specifikacijos testų rezultatais? Kokios modelių tikslumo lyginimo problemos?

4)      Patyrinėkime instrumentinių kintamųjų vertinimą su diskrečiais aiškinančiaisiais.

  1. Sugenruokite atsako kintamąjį bei keturis jį paaiškinančius kintamuosius pagal savo norimą DGP, tačiau taip, kad aiškinantieji: 1-as ir 2-as būtų nepriklausomi, 1-as ir 3-ias būtų netiesiškai priklausomi (ir geriausia, – nekoreliuoti), 1-as ir 4-as būtų koreliuoti ~1.
  2. Įvertinkite modelius, kai kiekvienas iš 2-4 po vieną yra praleisti. Koks to poveikis (MC)?
  3. Sukurkite savo instrumentinius kintamuosius: a) kurie silpnai koreliuoja su aiškinančiaisiais; b) stipriai koreliuoja su aiškinančiaisiais. Įvertinkite modelius su praleistais kintamaisiais naudodami instrumentinių kintamųjų metodą ir imitaciniu būdu ištirkite pagrįstumą bei efektyvumą.

Seminarui skaitytini straipsniai III (pasirinkti patinkantį)  http://www.chrispapageorgiou.com/papers/HPP.pdf http://www2.binghamton.edu/economics/wp06/WP0603.pdf http://economics.ucr.edu/papers/papers01/01-29.pdf

 

Iliustracijų kodai

http://web.vu.lt/mif/v.kvedaras/files/2014/10/cars_2014.pdf

http://web.vu.lt/mif/v.kvedaras/files/2014/10/chick-weight_2014.pdf

http://web.vu.lt/mif/v.kvedaras/files/2014/12/growth-eqs.pdf

http://web.vu.lt/mif/v.kvedaras/files/2014/12/binominiai.pdf