Ekonometria yleistyy yritysmaailmassa
Ekonometrian käsitteet / sanasto / termit

Regressioanalyysin edellytykset tai rajoitteet

Regressioanalyysin käyttö on viime vuosina yleistynyt tilastollisena analyysimenetelmänä voimakkaasti, mutta samalla on huomattu, että sitä käytetään surutta silloinkin, kun sen edellytykset eivät täyty. Idea on tietysti se, että näiden edellytysten pitää täyttyä, jotta regressioanalyysista saataisiin luotettavia tuloksia. Käydään seuraavassa läpi lineaarisen regressioanalyysin edellytykset. Yksinkertaisuuden vuoksi käsitellään tässä yhden muuttujan mallia, vaikka selittäviä muuttujia voi tietysti regressioanalyysissa olla yksi tai useampia.

1) Lineaarisuus

2) Virhetermien vaihtelu eli varianssi säilyy vakiona = homoskedastisuus (jonka vastakohta on heteroskedastisuus, jolloin virhetermien varianssi vaihtelee)

3) Selittävä muuttuja ei saa korreloida virhetermin kanssa; endogeenisyysongelma

4) Virhetermien riippumattomuus toisistaan; ei autokorrelaatiota

5) Virhetermien normaalijakautuneisuus

6) Ei täydellistä multikollineaarisuutta

Toisinaan rajoitteena mainitaan lisäksy joskus poikkeavat havainnot eli englanniksi outliers - edellytykseksi niitä on kuitenkaan turha listata, koska ei poikkeavilta havainnoilta voi oikeassa elämässä täysin välttyä. Parasta tietysti olisi, jos vahvasti poikkeavia havaintoja ei olisi lainkaan, ja jos niitä ilmenee, on syytä tutkia, ettei ole ainakaan koodaus- tai mittausvirheestä kyse. Jos poikkeamat ovat todellisia, kannattaa alkaa miettiä, onko jokin selittävä tekijä, joka selittää poikkeaman, ja lisätä se malliin. Esimerkkinä asuntojen myyntihinnoissa voidaan havaita suuria poikkeamia ennusteesta, ja löytää selittävä tekijä - esimerkiksi merinäköala tai tulossa oleva putkiremontti - joka selittääkin suuret poikkeamat ennustettuun hintaan nähden.

Virhetermi tarkoittaa siis teoreettisesti regressiomallin selittämättä jäänyttä osaa, jonka suuruutta ei voi tietää. Estimoitaessa jäännöstermi lasketaan selitettävän muuttujan y:n havaitun arvon ja sen mallin perusteella ennustetun arvon, sovitteen erotuksena. Hyvässä mallissa jäännöstermi on pieni ja täysin satunnainen.

Miten edellytysten toteutumista mitataan?

Mistä sitten voidaan analysoida, täyttyvätkö nämä lineaarisen regressioanalyysin edellytykset? 

1) Lineaarisuuden tarkastelu

Regressiomalleja on toki muitakin kuin lineaarisia, mutta lineaarisesta mallista puhutaan silloin, kun y- ja x-muuttujien välillä on lineaarinen eli suoraviivainen yhteys. Tämä ilmenee tietysti helposti graafisesta hajontakuviosta (scatter plot), josta voidaan tarkastella, sijaitsevatko havaintoparit kuviossa lineaarisella trendillä, joka voi olla nouseva tai laskeva. 

Toiseksi voidaan tarkastella esim. Excelin regressioanalyysin jäännöstermikuviota (residual plot). Siinä vaaka-akselilla selittävä muuttuja, pystyakselilla virhetermi eli y:n ja sen ennusteen erotus. Jäännösten tulisi olla symmetrisesti x-akselin molemmin puolin, ilman havaittavaa trendiä tai rakennetta.

Mallin selitysaste R - mitä lähempänä se on ykköstä, sitä tarkemmin lineaarista suoraa havainnot seuraavat.

2) Homoskedastisuus, jäännöstermien varianssi, onko vakio

Regressioanalyysin yhtenä oletuksena on, että jäännöstermien varianssin tulisi olla likimain vakio kaikilla selittävän muuttujan arvoilla. Vastakkaisessa tilanteessa eli heteroskedastisuudessa havaitaan, että jäännöstermien vaihtelun voimakkuus muuttuu x-asteikon eri arvoilla, eli esimerkiksi suuremmilla x:n arvoilla jäännöstermien vaihtelu alkaa voimistua.

Tietenkin voidaan grafiikasta jo tarkastella jäännöstermikuviosta, säilyykö jäännöstermien vaihtelu vakiona. Lisäksi on tarjolla käytetystä ohjelmistosta riippuen erilaisia testejä, joiden avulla voidaan testata varianssia, onko se vakio:

  • F-testi kahden varianssin eron testaamiseen, eli esim. puolitetaan jäännökset kahteen osaan ja verrataan onko eroja
  • Levenen testi useamman kuin kahden varianssin testaamiseen
  • BP-testi eli Breusch-Pagan testi
  • White test
  • Brown-Forsythe test

Testien ideana on tietenkin saada testiarvo, jota verrataan kriittiseen arvoon, ja sen perusteella hyväksytään tai hylätään nollahypoteesi, ja saadaan vahvaa näyttöä homoskedastisuudelle. Todennäköisyyttä voidaan testata eri merkitsevyystasoilla, jolloin saadaan mitattua esim. 1% tai 5% varmuus sille, että tulos ei johdu sattumasta. Jos käytössä on pelkästään Excel, niin F-testille on funktio FTEST (suomenkielisessä FTESTI). 

3) Selittävä muuttuja ei saa korreloida virhetermin kanssa, eksogeenisyys

Jos selittävä muuttuja mallissa korreloi virhetermin kanssa, meillä on ns. endogeenisyysongelma. Silloin pienimmän neliosumman estimointiemenetelmällä ei saada luotettavia estimaatteja mallin parametreistä, vaan estimaattori on harhainen (biased) ja tarkentumaton (incosistent). Yleisimmät tilanteet, jolloin endogenisyyttä esiintyy, ovat puuttuvat selittävät muuttujat, mittausvirheet selittävissä muuttujissa ja samanaikaisuusharha (esimerkiksi hallitus päättää lisätä poliisivoimia, kun rikollisuus on kasvussa, jolloin molemmat kasvavat samanaikaisesti, sekä rikollisuus että poliisivoimien määrä).

Endogeenisyyttä voidaan testata esimerkiksi (Durbin-Wu-)Hausmanin testillä, joka vertailee OLS- ja IV-estimaattoreita, ja niiden regressiokertoimia sekä keskivirheitä. Nollahypoteesina on, että OLS on harhaton (unbiased) ja tarkentuva (consistent). Vastakkaisessa tapauksessa, eli kun endogeenisyyttä esiintyy, onkin suositeltavaa käyttää estimointiin instrumenttimuuttujamenetelmää (IV), eikä pienimmän neliösumman menetelmää (PNS eli englanniksi OLS), joka tuottaisi harhaisia tuloksia.

4) Virhetermien riippumattomuus

Virhetermit eivät regressioanalyysissa saisi korreloida keskenään, mutta esimerkiksi aikasarja-analyyseissa, jos vaikka tutkitaan työttömyysasteen kehitystä vuodesta toiseen, virhetermit korreloivat joskus vahvasti. Silloin puhutaan autokorrelaatiosta, eli aikasarjassa seuraava arvo on ennustettavissa edellisten arvojen avulla.

Autokorrelaatiota voidaan testata jälleen ohjelmistosta riippuen eri testeillä, kuten:

  • Durbin-Watson test (jonka testisuureen saa laskettua myös Excelillä, mutta p-luvun vertailutaulukkoa tarvitaan merkitsevyyden määrittelyyn, ja taulukkoarvoja ei ole Excelissä)
  • Runs test (Waldin-Wolfowitz), pystyy laskemaan Excelillä, vaikkakin kaavat ovat mutkikkaat

Durbin-Watsonin testin voi helpoimmin tehdä suoraan esim. SPSS-ohjelmistolla tai XLSTAT-lisäosalla, jonka voi ladata Exceliin.

5) Virhetermien normaalijakautuneisuus

Virhetemien normaalijakautuneisuusoletusta ei välttämättä aina mainita regressioanalyysin edellytyksenä, sillä useimmin käytetty estimointimenetelmä, PNS eli pienimmän neliösumman menetelmä (engl. OLS = Ordinary Least Squares), ei edellytä virhetermien normaalijakaumaa. 

Jälleen käytetystä tilasto-ohjelmistosta riippuen meillä on käytettävissä testejä, jotka mittaavat, ovatko virhetermien poikkeamat normaalijakaumasta tilastollisesti merkitseviä vai eivät.

6) Multikollineaarisuus

Regressioanalyysissä on aivan luonnollista, että selittävät muuttujat korreloivat keskenään. Joskus niiden keskinäinen korrelaatio voi olla kuitenkin niin suurta, esim. niiden välinen korrelaatiokerroin on yli 0.9, että tämä alkaa haitata regressioanalyysin tulosten tarkkuutta. Siksi voidaankin lisätä vielä viidenneksi regressioanalyysin edellytykseksi se, ettei selittävien muutujien välillä ole ainakaan täydellistä multikollineaarisuutta, jolloin yksi selittävä muuttuja voitaisiin laskea toisen avulla.

Multikollineaarisuuden mittaamiseen on kehitetty erilaisia mittareita, jotka ilmaisevat mahdollisen ongelman vakavuuden, kuten VIF-mittari, joka on käytettävissä esim. SPSS-ohjelmistossa. VIF-arvo ei saisi ylittää 10:tä.

Miten korjata edellytysongelmia?

Jos edellä mainitut regressioanalyysin edellytykset eivät toteudu, vaan jokin niistä estää luotettavan analyysin toteuttamisen, tämä ei vielä välttämättä tarkoita sitä, että pitäisi luopua kokonaan regressioanalyysista. Sillä regressioanalyysi tarjoaa useita tapoja ottaa rajoitteet huomioon, ja "korjata" niiden vaikutukset. Voimme vaihtaa estimointimenetelmää, tai käyttää erilaisia tekniikoita tai korjata esimerkiksi lineaarisuusoletusta muuttujien muunnoksilla. Mutta palataan näihin seuraavassa blogissamme!

 

Kommentit

Feed You can follow this conversation by subscribing to the comment feed for this post.

Verify your Comment

Kommentin esikatselu

This is only a preview. Your comment has not yet been posted.

Working...
Your comment could not be posted. Error type:
Your comment has been saved. Comments are moderated and will not appear until approved by the author. Post another comment

The letters and numbers you entered did not match the image. Please try again.

As a final step before posting your comment, enter the letters and numbers you see in the image below. This prevents automated programs from posting comments.

Having trouble reading this image? View an alternate.

Working...

Kommentoi

Comments are moderated, and will not appear until the author has approved them.

Your Information

(Name and email address are required. Email address will not be displayed with the comment.)