Regressioanalyysin edellytykset tai rajoitteet
Miten ekonometrian avulla voi ohjata markkinointipanostuksia?

Ekonometrian käsitteet / sanasto / termit

Aivan samalla tavoin kuin digimarkkinointi tai analytiikka, myös ekonometria vilisee ammattijargonia, jota ymmärtämättömille ekonometria ei avaudu. Tässä ekonometrian termejä selkokielellä, ja usein esimerkillä höystettynä, jolloin on helpompi ymmärtää, mitä milläkin termillä tarkoitetaan.

Regressioanalyysi

Regressioanalyysi on tilastotieteen menetelmä, jonka avulla pyritään tarkastelemaan jonkin muuttujan riippuvutta valituista selittävistä muuttujista. Regressioanalyysi on ekonometrian yleisin menetelmä. Sen tuloksena saadaan mm. mallin selitysaste, sekä voidaan laskea kunkin selittävän muuttujan yhteys selitettävään muuttujaan. Yksittäisten selittävien muuttujien kulmakertoimien laskenta onkin usein regressioanalyysin päätarkoitus: esimerkiksi kuinka paljon myynti nousee, kun kasvatetaan markkinointipanostuksia yhdellä yksiköllä valittuun kanavaan? Entä jos panostus on nolla, paljonko myynti on silloin (vakion arvo)?

Regressioanalyysia voidaan käyttää lukemattomilla eri aloilla, kuten taloustiede, lääketiede, yhteiskuntatiede. Viime aikoina regressioanalyysi on yleistynyt voimakkaasti markkinointianalytiikassa, jossa se täydentää hyvin esimerkiksi perinteistä Web-analytiikkaa ja markkinoinnin tehokkuuden mittaamista, erityisesti koska se ei ole sidottu vain verkossa tapahtuviin myynteihin ja markkinointitoimiin.

Regressioanalyysia voimme siten hyvin hyödyntää, kun laskemme vaikkapa sanomalehti- tai TV-panostusten yhteyttä kivijalkamyymälöissä tapahtuvaan myyntiin. Asian tutkimiseksi tarvitsemme vain riittävästi dataa: havaintopareja (panostus - myynti) esim. eri viikkoina tai päivinä. Mitä enemmän meillä on dataa, sitä tarkempia arvioita voimme saada. Markkinointipanostusten ekonometrisessä mallintamisessa pyritään usein keräämään kahden vuoden aineisto, jonka pohjalta regressioanalyysi lasketaan.

Korrelaatio, riippuvuus (correlation)

Kahden muuttujan välinen yhteisvaihtelu, eli kun esimerkiksi tuotteen hinta nousee, myynti helposti laskee. Silloin sanotaan, että hinnan ja myyntimäärien välillä on negatiivinen korrelaatio. Kun korrelaatio on positiivinen, toisen muuttujan kasvaessa toinenkin nousee. Esimerkiksi jos markkinointipanostus toimii toivotulla tavalla, myynti kasvaa tietyssä suhteessa, kun panostus kasvaa. Ekonometrian avulla voidaan laskea tai ennustaa, paljonko myynti kasvaa, kun panostusta nostetaan tietyllä määrällä.

On tärkeä muistaa, että vahvakaan korrelaatio kahden muuttujan välillä ei todista syy-seuraus-suhdetta. Esimerkiksi koulutusaste korreloi bruttokansantuotteen kanssa, mutta ei voida olla varmoja, kumpi on syy, kumpi seuraus. Joko korkea koulutustaso voi kohottaa bruttokansantuotetta, tai sitten onkin niin, että kun BKT on korkea, on varaa paremmin kouluttaa väestöä.

Korrelaatiokerroin (coeffecient of correlation)

Kahden muuttujan välistä riippuvuutta voidaan mitata laskemalla niiden välinen korrelaatiokerroin. Pearsonin korrelaatiokerroin on muuttujien mittayksiköistä riippumaton tunnusluku, ja sen suuruuteen ei vaikuta muuttujien järjestys. 

Pearsonin korrelaatiokerroin lasketaan kaavasta, jossa muuttujien välinen kovarianssi jaetaan keskihajontojen tulolla. Silloin saadaan lukuarvoja, jotka vaihtelevat vain -1:n ja +1:n välillä. Eli muuttujien välillä voi olla negatiivinen tai positiivinen korrelaatio, tai korrelaatio voi olla nolla, jolloin muuttujien välillä ei ole suoraviivaista riippuvuutta.

Korrelaatiokertoimen arvo +1 tarkoittaisi sitä, että kaikki havaintopisteet sijaitsevat samalla nousevalla suoralla.

Korrelaatiokertoimen arvo -1 tarkoittaisi, että kaikki havaintopisteet sijaitsevat samalla laskevalla suoralla.

Regressiosuora, Regressiokerroin, kulmakerroin (coeffecient of correlation, slope coefficient)

Regressioanalyysissa lasketaan regressiosuoran kulmakerroin (correlation coefficient) kullekin selittävälle muuttujalle. Kulmakertoimen laskukaava on varsin yksinkertainen, jos selittäviä x-muuttujia on vain yksi: x- ja y-muuttujien kovarianssi jaetaan x-muuttujien varianssilla.

Ko. muuttujan regressiosuora on laskeva suora, jos kulmakerroin selitettävän muuttujan kanssa on negatiivnen, ja puolestaan nouseva suora, jos korrelaatio on positiivinen sekä vaakasuora, jos korrelaatio on nolla.

Regressiokerroin kertoo suoraan, kuinka paljon selitettvän y-muuttujan arvo muuttuu, kun selittävä x-muuttuja kasvaa yhden yksikön. Tätä kutsutaan myös termillä marginaalivaikutus.

Regressiosuoran vakio (intercept) kertoo, missä kohtaa regressiosuora leikkaa y-akselin. Silloin vakiotekijä pyrkii kuvaamaan y:n arvoa silloin, kun x:n arvo on nolla. Mikä on esimerkiksi yrityksen myynti silloin, kun markkinointipanostus kanavaan x on nolla?

Regressioanalyysin hajontakaaviossa edellä mainittu Pearsonin korrelaatiokerroin voidaan esittää etäisyytenä, kuinka lähellä regrerssiosuoraa havainnot ovat.

Regression korrelaatiokerroin, Multiple R

Regressioanalyysin tilastollisessa yhteenvedossa esitetään lisäksi Multiple R, joka käännetään vain korrelaatiokertoimeksi. Tämä korrelaatiokerroin onkin sama kuin Pearsonin korrelaatiokerroin, joka voidaan laskea myös Excelin funktiolla KORRELAATIO, mutta vain silloin, kun tarkasteltavia selittäviä muuttujia on vain yksi. 

Mutta silloin, kun selittäviä muuttujia on useampia, Multiple R kuvastaa selittävien muuttujien yhteistä korrelaatiota selittävän muuttujan kanssa, englanniksi the multiple R is the coefficient of multiple correlation.

Mallin selitysaste, R2, R Squared, coefficent of determination

Lineaarisen regression Multiple R:n neliö R2 (engl. R Squared) on puolestaan regressiomallin selitysaste. Se määritellään varsinaisesti siten, kuinka suuren osan selitettävän muuttujan vaihtelusta regressiomalli yhteensä selittää. Laskukaava on R2 = RSS / TSS, jossa RSS on regressiomallin Sum of Squares eli neliösumma, TSS = Total Sum of Squares, eli kokonaisvaihtelu. TSS saadaan laskukaavasta, jossa lasketaan selitettävän muuttujan havaintoarvojen ja niiden keskiarvon erotuksten neliösumma, tästä siis tuo nimitys neliösumma eli Sum of Squares. TSS:n eli totaalivaihtelun ja mallin selittämän vaihtelun RSS erotus on ESS, eli residuaalien  (jäännöstermien) neliösumma.

Estimointi, estimaattorit, estimaatit

Estimoinnilla tarkoitetaan sitä, että otokseen perustuen pyritään etsimään parasta arviota perusjoukon parametrin oikealle arvolle. Estimaattori on estimoinnissa käytettävä otossuure, estimointikaava, jonka avulla lasketaan havaintoaineistosta lukuja, estimaatteja, joka on estimaattorin arvo.

Estimaattoria kuvaillaan seuraavanlaisilla termillä:

  • estimaattori on harhaton (unbiased), jos estimaattori osuus keskimäärin oikeaan, jolloin sen otosjakauman odotusarvo on estimoitavan parametrin arvo. Harha on odotusarvon poikkeama estimoitavan parametrin arvosta.
  • estimaattori on asymptootteisesti harhaton, kun harha lähestyy nollaa, kun otoskoko kasvaa
  • estimaattori on tehokas (efficient), jos estimaattori on asymptoottisesti harhaton ja sillä on pienin mahdollinen varianssi
  • estimaattori on tarkentuva (consistent), jos estimaattorin varianssi lähestyy asymptoottisesti nollaa, eli otoskoon kasvaessa estimaattorin arvot keskittyvät yhä tiiviimmin parametrin todellisen arvon ympärille

Edellä mainitusta voidaan hyvin päätellä, että pienillä otoskoolla harvoin saadaan tarkkoja estimaattoreita, ja mitä enemmän saadaan havaintopareja usein estimaattorikin tarkentuu. On hyvä muistaa myös se, että kun meillä on havaintoja vain tietyiltä skaalalta x-akselia, regressiosuorankaan ei voida olettaa pätevän havaintoalueen ulkopuolella. Siten jos markkinointipanostukset vaihtelevat vaikka kuukausittain 10.000 euron ja 200.000 euron välillä, emme regressiosuoran avulla pysty välttämättä ennustamaan regressiomallin avulla myyntiä yli 200.000 euron panostuksilla. Uudet havainnot jälleen tarkentavat estimaattoria.

Kovarianssi (covariance) Kovarianssilla tarkoitetaan kahden muuttujan yhteisvaihtelua. Termiä käytetään tilastollisen riippumattomuuden määrittelyssä. Jos kaksi satunnaismuuttujaa on toisistaan riippumattomia, niiden yhteisvaihtelu eli kovarianssi on nolla.

PNS (OLS), Pienimmän neliösumman menetelmä, Ordinary Least Squares

PNS eli englanniksi OLS on yleisimmin regressioanalyysissa käytetty estimaattori erityisesti ekonometriassa. Tämä johtuu siitä, että kun tietyt lineaarisen regressioanalyysin edellytykset täyttyvät, OLS on ei ole ainoastaan yksi, vaan paras (tehokkain) harhaton estimaattori.  Tämä perustuu Gauss Markovin teoreemaan, jonka mukaan tiettyjen edellytysten täyttyessä OLS tuottaa Best Linear Unbiased Estimator = BLUE. "Parhaalla" viitataan tässä alhaisimpaan varianssiin verrattuna muihin harhattomiin estimaattoreihin.

Keskivirhe (Standard error)

Regressioanalyysin selittävän muuttujan keskivirhe (standard error) raportoidaan jokaiselle analyysiin mukaan otetulle tekijälle sekä koko mallille erikseen. Keskivirhe mittaa sitä, kuinka kaukana saadut havainnot keskimäärin olivat mallin regressiosuorasta. Mitä pienempi ero, sitä parempi.

Keskihajonta (standard deviation)

Keskihajonta eli standardipoikkeama on tärkein hajontaluku. Se mittaa havaintoarvojen hajaantumista keskiarvon ympärillä. Kahdella muuttujalla voi olla täysin sama keskiarvo, mutta niiden hajonta voi olla täysin erilainen. Siksi keskiluvun rinnalla esitetään usein myös hajontaluku.

Keskihajonnan neliö on nimeltään varianssi.

T-testi, testisuure, p-arvo, F-testi

Regressioanalyysissa jokaisen selittävän muuttujan kulmakertoimen tilastollinen merkitsevyys lasketaan. Studentin T-testin testisuureen t-arvo saadaan suoraan jakamalla kulmakerroin keskivirheellä (Coefficient of correlation/ Standard error), ja t-jakaumien taulukosta tai Excelistä saadaan kriittinen raja-arvo, jonka testisuureen pitää alittaa, jotta muuttujan kerrointa voidaan pitää nollaa suurempana tilastollisten kriteerien mukaan. SIten saamme todennäköisyydet sille, että kerroin on nollaa suurempi esimerkiksi 99 % varmuudella, jolloin mahdollisuus siihen, että tulos selittyy pelkällä sattumalla on enää 1%.

T-testin lisäksi on käytettävissä p-arvo, joka lasketaan myös jokaiselle selittävälle muuttujalle. Mitä pienempi p-arvo, sitä enemmän tukea saadaan nollahypoteesia vastaan, jonka mukaan kerroin onkin nolla. P-arvon avulla saadaan siis tilastollinen varmuus, esim. 95% ja 99% varmuus sille, että kerroin ei ole nolla. Suuri p-arvo hälyttää vastaavasti siitä, että kerroin ei ehkä olekaan merkittävä eikä sitä välttämättä kannata ottaa lainkaan regressiomalliin mukaan.

Koko regressiomallille, esimerkiksi 10 eri muuttujan mallille, saadaan vielä F-testin avulla tilastollinen testi, joka kertoo, pystytäänkö regressioanalyysissa mukana olevilla muuttujilla selittämään riippuvan muuttujan vaihtelua. Nollahypoteesina on, että kaikkien muuttujien vaikutus on nolla, jolloin sitä ei ole vaikea kumota. Voikin joskus käydä niin, että yhdenkään muuttujan regressiokerroin ei ole tilastollisesti merkitsevä, mutta koko mallin F-testin tulos on. Silloin siis yksikään muuttuja yksin ei ole tilastollisesti merkitsevä, mutta mallin muuttujat yhdessä pystyvät silti selittämään y-arvon vaihtelua.

Varianssi (variance)

Varianssi on tilastollista hajontaa mittaava termi. Se ilmoittaa, miten suuria keskimäärin ovat neliöidyt poikkeamat keskiarvosta.

Kun varianssi on pieni, muuttujien arvot keskittyvät odotusarvon ympärille tiiviisti. Vastaavasti jos arvot ovat hajallaan odotusarvon ympärillä, varianssin arvo on suuri.

Vapausasteet (degrees of freedom)

Regressioanalyysin tulosteissa näkyy vapausasteiden (degrees of freedom) määrä regressiomallille, residuaaleille ja yhteenlaskettu vapausasteiden määrä. Vapausasteiden määrä sisältyy moniin laskukaavoihin, ml. merkitsevyystestien testisuureiden ja keskihajonnan laskentaan. Vapausasteiden kokonaismäärä on havaintojen määrä miinus 1. Regressimallien vapausasteiden määrä on sama kuin malliin mukaan otettujen selittävien muuttujien määrä.

Virhetermi, jäännöstermi (error term/disturbance, residual)

Virhetermiä ja jäännöstermiä eli englanniksi error term / residual käsitellään monessa opetusmateriaalissakin täysin synonyymeinä, vaikkakin tarkalleen ottaen teorian populaatioregressiomallissa on virhetermi ε (disturbance/error term), jolle on listattu useita oletuksia, joita sen tulisi täyttää. Virhetermi on määritelmällisesti havaintoarvon poikkeama todellisesta (siis koko populaatiosta lasketusta) parametrin arvosta: "An error term in statistics is a value which represents how observed data differs from actual population data." Regressiomallissa voitaisiin vastaavasti puhua ennustevirheestä ε, joka on siis muuten deterministisen, suoraan kaavasta johdettavan mallin virheosa.

Käytännön estimoinnissa, kun kyse on otoksen parametrien arvojen estimoinnista, meillä ei ole aina edes tietoa todellisesta parametrin arvosta, ja siksi usein virhetermin sijasta puhutaankin jäännöstermistä (residual), joka mitataan sillä, kuinka paljon havaintoarvo poikkeaa regressiomallin perusteella esim. lineaarisen regressiosuoran ennustetusta arvosta - todellista arvoa kun ei aina tiedetä. Jäännöstermi on ikään kuin estimaatti todellisesta virhetermistä: havaitun arvon ja selitettävän muuttujan y sovitteesta (fit) (joka on saatu regressiomallin kaavasta) laskettu erotus.

Näitä teoreettisia eroja sekoittaa tietenkin sitten se, että käytännön regressioanalyyseissa hyvin usein sekä x:n että y:n arvot tunnetaan, esimerkiksi markkinointipanostus-myyntiluvut tai asunnon neliöt ja muut hintaan arvioidut asunnon hintaan vaikuttavat tekijät sekä toteutunut asunnon myyntihinta, jolloin selitettävän muuttujan y arvot todellakin tiedetään ja ne ovat faktoja, eivätkä mitään pelkkiä kaavasta laskettuja ennustearvoja.

Kuvaavaa on, että suomenkielisessä Wikipediassa virhetermi ja residuaali selitetään synonyymeina, englanninkielisessä Wikipediassa niiden välillä on "hienon hieno, mutta tärkeä ero"!

Odotusarvo (expectation), Satunnaismuuttujat (random variable)

Odotusarvoksi kutsutaan satunnaisilmiön tuottamien lukujen odotettavissa olevaa arvoa. Numeerisia lukuarvoja tuottavia satunnaisilmiöitä kutsutaan satunnaismuuttujiksi. 

Matemaattisesti määritellään erikseen diskreetti ja jatkuva satunnaismuuttuja.

Diskreetistä satunnaismuuttujasta esimerkkinä voi olla kuusitahoinen arpakuutio, jonka kaikkien pistelukujen todennäköisyys on sama. Matemaattisen kaavan mukaan arpakuutiota heittämällä pelaaja voi laskea odotusarvoksi etenevänsä noin 3,5 askelta heittokierrosta kohti. Tämä luku lasketaan siis kaavalla, jossa on mukana mahdollisten arvojen joukko ja niiden esiintymistodennäköisyys.

Jatkuva satunnaismuuttuja on satunnaismuuttuja, joka voi saada vain ei-negatiivisia arvoja, joiden jakaumaa voidaan kuvata todennäköisyys- eli tiheysfunktiolla. Esimerkkinä pilkkikilpailussa saatujen kalojen painot. Jatkuvan satunnaismuuttujan mahdollisia arvoja on ääretön määrä, eikä eri muuttujien todennäköisyyksiä voi luetella, vaan ne on lausuttava lausekkeen muodossa. 

Jatkuvat satunnaismuuttujat liittyvät usein laskelmiin, joissa käsitellään jatkuvia suureita, kuten paino, pituus, pinta-ala, aika, nopeus, lämpötila, rahamäärä tai korko. Siten esimerkiksi verkkokaupan päivittäinen myyntiluku olisi tyypillinen jatkuva satunnaismuuttuja.

Stokastinen prosessi

Stokastisella prosessilla tarkoitetaan matemaattisia prosesseja, joilla pyritään kuvaamaan todellisuuden prosesseja, jotka etenevät ajassa sattumanvaraisesti. Esimerkkinä vaikkapa lämpötilan satunnaiset heilahtelut mittausasemalla. Vaikka meillä olisi kuinka paljon mittaushistoriaa menneistä lämpötiloista eri vuosina, kehityksen ennustaminen tarkasti ei satunnaisuuden takia ole mahdollista. Satunnaismuuttujaa kutsutaankin stokastiseksi muuttujaksi.

Stationaarinen aikasarja

Stationaariseksi kutsutaan sellaista aikasarjaa, jossa sen tilastolliset ominaisuudet (kuten keskiarvo, varianssi) eivät muutu systemaattisesti ajan kuluessa. Useimmat aikasarja-analyysin menetelmät vaativat normaalijakautuneen ja stationaarisen aikasarjan, ja siksi usein tehdään aikasarjaan muunnoksia ennen analyysiä: esimerkiksi lasketaan logaritmi- tai neliöjuurimuunnokset.

Deterministinen osa aikasarjaa

Aikasarja voidaan jakaa kahteen pääkomponenttiin: deterministinen osa ja satunnaisvaihtelu. Determinististä osaa edustavat esimerkiksi trendit,  kausivaihtelut vuoden sisällä, suhdannevaihtelut.

Aikasarjaan usein sovellettava regressiomalli on AR eli Autoregressive, jossa aikasarjan edelliset havainnot ovat mallin selittäjinä.

Yksikköjuuri (Unit root)

Stokastisen ja deterministisen trendin erottaa yksikköjuuri (unit root). Stokastisessa trendissä on yksi tai useampi yksikköjuuri, ja jos yksikköjuurta ei ole, prosessia voidaan mallintaa deterministenä trendinä.

Dickey-Fullerin testillä voidaan testata yksikköjuuren olemassaolo. Nollahypoteesina on, että yksikköjuuri on olemassa, jolloin kyse on stokastisesta trendistä. Vaihtoehtoinen hypoteesi on, että aikasarja on stationaarinen.

 

 

 

 

 

 

Kommentit

Feed You can follow this conversation by subscribing to the comment feed for this post.

Verify your Comment

Kommentin esikatselu

This is only a preview. Your comment has not yet been posted.

Working...
Your comment could not be posted. Error type:
Your comment has been saved. Comments are moderated and will not appear until approved by the author. Post another comment

The letters and numbers you entered did not match the image. Please try again.

As a final step before posting your comment, enter the letters and numbers you see in the image below. This prevents automated programs from posting comments.

Having trouble reading this image? View an alternate.

Working...

Kommentoi

Comments are moderated, and will not appear until the author has approved them.

Your Information

(Name and email address are required. Email address will not be displayed with the comment.)