Ekonometria

Miten ekonometrian avulla voi ohjata markkinointipanostuksia?

Ekonometria on tilastotieteen menetelmien hyödyntämistä taloudellisessa laskennassa. Yleisiä ekonometrian sovelluksia ovat mm. myynnin ja markkinointipanostusten ja myynnin ja hinnan väliset laskelmat. Kun dataa on riittävästi esim. edellisen kahden vuoden ajalta, voidaan ekonometrian avulla laskea malli, miten markkinointipanostukset vaikuttavat myyntin, ja näin voidaan ekonometristen mallinnusten avulla lähteä optimoimaan kohti kustannustehokkainta panostusten osuutta eri kanaviin. Käytännössä päästään siis karsimaan turhaa, ja käytetään säästyvät varat siihen, mistä kanavasta panostus tuottaa korkeimmassa tulokulmassa rahat takaisin. Markkinoinnin kokonaiskannattavuus voi parantua olennaisesti!

Tyypilliset sudenkuopat markkinointipanostuksissa

Digitaalisilla kanavilla, erityisesti Googlen hakumainonnalla, on pisimmälle kehitetyt analytiikkametodit hakumainonnan kustannustehokkuuden laskentaan. Kun hakumainoksista veloitetaan hinta per klikki (per avainsana), voidaan laskea mainonnan kustannustehokkuus (ja Return Of Ad Spenditure, ROAS) sekä avainsanatasolla, mainosryhmätasolla (jonne sijoitetaan eri mainosvaihtoehdot ja avainsanat) sekä kampanjatasolla (joka voi olla jatkuva tai lyhyemmän mainoskampanjan ajan voimassa).

Käytännön sudenkuoppana on sitten markkinointipäättäjä, joka suuressa viisaudessaan on päättänyt panostaa hakumainontaan tasaisesti kiinteän summan kuukaudessa, esim. 1000 euroa tai 2000 euroa - joka summa ei perustu yhtään mihinkään, ja pahimmassa tapauksessa tuo summa on kaiken aikaa Googlen kannalta "limited by budget", eli todellinen avainsanojen kysyntä olisi moninkertainen, kuin mitä ko. budjetti sallii. Silloin Google toimii niin, että se pyrkii näyttämään budjetin rajoissa mainoksia tasaisesti pitkin päivää, eli jos budjetti on vaikka 1000 euroa ja kysyntää olisi 5000 euroon, mainokset näkyvät keskimäärin vain joka viides kerta, kun ko. avainsanoja haetaan. Käytännössä siis Google ohjaa valituilla avainsanoilla potentiaaliset asiakkaat suoraan kilpailijoille neljässä tapauksessa viidestä!

Jos tällaisessa tapauksessa tehtäisiin ekonometrinen mallinnus, ja laskettaisiin panostusten ja myynnin välinen suhde, niin itse mallista ei tulisi yhtään mitään, koska panostukset ovat aina sama, esim. 1000 euroa tai 2000 euroa kuussa, ja myynti sitten mitä sattuu tulemaan. Mallia ei voida laskea, koska x-arvojen variaatio on nolla, ja käytännössä malli antaisi panostusten kulmakertoimeksi nolla, ja mallin leikkauspisteeksi myynnin keskiarvon, eli esittäisi, että panostuksella ei ole yhteyttä myyntiin, ja kun panostus on aina vakio, myynti on vain myyntilukujen keskiarvo. Malli ei ole siis minkään arvoinen eikä selitä tai ennusta yhtään mitään.

Panostusainasama

Ensimmäinen toimenpide, mitä ko. yrityksessä kannattaisi tehdä, olisi laittaa mainonta tauolle vaikka pariksi viikoksi tai jopa kuukaudeksi. Silloin saataisiin todellinen leikkauspiste panostuksen ja myynnin suhteelle, eli paljonko myyntiä on keskimäärin viikkoina, jolloin panostus on oikeasti nolla. Tämän jälkeen olisikin syytä katsoa Googlen työkaluilla, paljonko ko. avainsanajoukolle on aidosti kysyntää kuukaudessa, ja testata, mihin myynti nousee, jos kaikki ko. liikenne otetaan vastaan, kun säädetään esimerkiksi avainsanojen maksimihintatarjous sinne, mihin Google sitä ehdottaa. Tämä ei toki ole välttämättä optiimi, mutta näin meillä olisi jo kolme laskentapistettä: Googlen ehdottama panostus, vanha keskimääräinen panostus per kk/vko, ja nollapanostus.

Viimeistään siinä vaiheessa, kun koossa on esim. 10-20 eri mittausviikkoa, voidaan alkaa mallintaa eri panostusten ja myyntilukujen suhdetta per viikko. Ihannetapauksessa meillä olisi vielä esim. koko toimialan myyntiluvut samalta ajalta, kuten on vaikkapa uusien autojen myynnistä, koska luvut ovat julkisia. Silloin meillä olisi sesonkidata, tiedetään montako autoa ajanjaksolla on myyty, ja kuinka paljon itse on myyty, jolloin tiedetään myös saavutettu markkinaosuus.

Myyntijapanostus
Nyt meillä alkaisi olla jo erittäinkin hyvät eväät laskea markkinointipanostuksen ja myynnin välinen kaava, ja regressioanalyysin avulla saamme esim. ylläolevaan graafiin laskettua Excelin avulla ennusteen, jonka mukaan myynti olisi 5,5 miljoonan euron luokkaa kuukaudessa kun panostus on nolla, mutta hakumainonnan panostuksella saavutettaisiin 1753 euron lisämyynti per panostettu euro, kun panostus on välillä 1000 - 5000 euroa.

Mallin käyttö ennusteena

Jos meillä on nyt mallin mukaan selvillä kulmakerroin, jolla panostus tuottaa myyntiä, voimmeko sitten ennustaa, mihin myynti nousisi, jos edelleen kasvatettaisiin voimakkaasti panostusta hakumainontaan. Voimmeko ennustaa, että jos panostus hakumainontaan nostetaan 10.000 euroon, mihin myynti kasvaisi?

Teoreettisesti kyllä, käytännössä ei. Kaava toki antaisi laskelman, jonka mukaan myynti nousisi jopa 23 miljoonaan 10.000 euron hakumainonnan panostuksella, mutta käytännössä tämä tuskin toteutuu, koska:

  • meillä ei ole havaintoja panostusalueen 1.000 - 5.000 euroa ulkopuolelta, jolloin emme tiedä kuin testaamalla, jatkuuko lineaarinen suora yhtä suoraviivaisesti havaintoja sisältävän panostusalueen ulkopuolella, vai alkaako suora "taipua", eli panostuksia nostettaessa tulee ennen pitkää raja vastaan, jolloin myynti ei enää kasvakaan lineaarisesti, tai se kasvaa paljon lievemmin kuin aiemmin, pienillä panostuksilla.
  • valitulla avainsanajoukolla on rajallinen määrä liikennettä saavutettavissa, koska niitä haetaan vain tietty määrä kuukaudessa Suomesta. Jos avainsanajoukkoa kasvatetaan, jokainen hakumainontaa tehnyt tietää, että kerroin, jolla panostus tulee takaisin, muuttuu. Usein parhaat sanat on jo valittu, ja Googlen Keyword plannerin avulla voidaan toki harkita avainsanajoukon kasvattamista, mutta usein uusilla sanoilla ei saavutetakaan yhtä tehokkaasti myyntiä kuin jo aiemmilla avainsanoilla oli saavutettu. Suhde muuttuu, ROAS-kerroin mahdollisesti heikkenee.

Ekonometrisen mallinnnuksen avulla ja käytännössä Google Adsia optimoimalla pystytään kuitenkin varsin nopeasti selvittämään, mikä on optimaalinen panostus ko. kanavaan eli maksettuun hakuun Googlen hakukoneissa, ja tämän jälkeen päätetään ottaa kaikki liikenne vastaan sesongin mukaan valituilla avainsanoilla. Panostus vaihtelee kysynnän mukaan kuukausittain, ja voidaan aina tarkentaa ennustetta, kun trendit, sesongit, kysyntä ja tarjonta tai kilpailutilanne muuttuvat. Paitsi sesongin mukainen kysyntä muttuu kaiken aikaa, myös kilpailijoiden toimenpiteet muuttavat tilannetta, mutta vastaavasti myös ennusteemme tarkentuu joka viikko tai kuukausi, kun saamme uusia havaintopareja panostuksen ja myynnin välisestä suhteesta.

Milloin ekonometrisestä mallista eniten hyötyä?

Hakumainonta on tietysti markkinoinnin muoto, josta saamme ilmankin ekonometrian laskelmia hyvinkin tarkkaa tietoa ja pystymme laskemaan sen kustannustehokkuutta myös Googlen omilla työkaluilla. Ekonometriasta on hyötyä kuitenkin, kun saamme lisää dataa muista muuttujista, jotka vaikuttavat myyntiin, esim. sesonkidata, kilpailijadata jne. - jolloin ekonometrisellä mallilla saatetaan jo päästä paljon pidemmälle, kuin pelkästään naiivisti olettamalla, että "muut tekijät kuin mainospanostus eivät vaikuta myyntiin". Kaikki tietävät arkikokemuksesta, että myyntiin vaikuttaa aina lukuisia eri tekijöitä, ei pelkästään yhden kanavan mainonta! Pelkästään esimerkin tapauksessa liittämällä mukaan sesonkitiedot koko toimialan myyntiluvuista, päästiin 63,3 % selitysasteeseen myynnin vaihtelusta, eli kun muuttujina oli pelkästään hakumainonta ja myynnin kausivaihtelu. Toki mallista puuttui edelleen monta muuta ratkaisevaa tekijää, mm. muut markkinointitoimenpiteet, myyntikohteiden muutokset (uudet mallit, uudet tuotteet ja uudet hinnat) jne.

Digitaalisen markkinoinnin ulkopuolella kuulee usein väitettävän, että myynnin ja markkinointipanostuksen suhdetta ei voida mitata. Ekonometrian avulla voidaan. Joko markkinointinpanostuksen ja myynnin välillä on positiivinen tai negatiivinen korrelaatio, tai niiden korrelaatio on nolla - ei ole riippuvuutta. Kaikissa tapauksissa asia on aina suoraan mitattavissa, kunhan vain saadaan myynti- ja panostuseurot riittävän suurelta ajanjaksolta. Ja myös siinä tapauksessa, tai etenkin siinä tapauksessa, että riippuvuutta näiden asioiden välillä ei ole, tai korrelaatio on negatiivinen, tieto tästä voi olla erittäin arvokas! Miksi käyttää kuukaudesta tai vuodesta toiseen panostuksia asiaan, joka ei korreloi myyntiin halutulla tavalla - eli positiivisesti!

Käytännössä mitä enemmän dataa saamme myyntiin vaikuttavista tekijöistä, sitä parempaan selitysasteen pääsemme myynnin mallinnuksessa, ja sitä tarkempaa tietoa saamme eri tekijöiden vaikutuksesta myyntiin. Parhaimmillaan päästään siihen, että myynnin vaihtelusta pystytään selittämään jopa 80-90 prosenttia - sataan prosenttiin ei koskaan päästä, koska aina on tekijöitä, joita emme tunne tai jotka ovat satunnaisia. Mutta jos päästään jo 70-90 % selitysasteeseen, saadaan erittäin paljon dataa, jonka perusteella voidaan optimoida eri tekijöitä, laskea esim. optimaalinen panostus eri kanaviin, ja tehostaa myyntiä monella tavalla

Kaikki myynnin mallinnukset on räätälöitävä asiakaskohtaisesti, asiakaskohtaisella datalla. Ota yhteyttä, niin autamme alkuun!
- Ismo Tenkanen

 

 

 

 

 

 

 

 

 

 


Ekonometrian käsitteet / sanasto / termit

Aivan samalla tavoin kuin digimarkkinointi tai analytiikka, myös ekonometria vilisee ammattijargonia, jota ymmärtämättömille ekonometria ei avaudu. Tässä ekonometrian termejä selkokielellä, ja usein esimerkillä höystettynä, jolloin on helpompi ymmärtää, mitä milläkin termillä tarkoitetaan.

Regressioanalyysi

Regressioanalyysi on tilastotieteen menetelmä, jonka avulla pyritään tarkastelemaan jonkin muuttujan riippuvutta valituista selittävistä muuttujista. Regressioanalyysi on ekonometrian yleisin menetelmä. Sen tuloksena saadaan mm. mallin selitysaste, sekä voidaan laskea kunkin selittävän muuttujan yhteys selitettävään muuttujaan. Yksittäisten selittävien muuttujien kulmakertoimien laskenta onkin usein regressioanalyysin päätarkoitus: esimerkiksi kuinka paljon myynti nousee, kun kasvatetaan markkinointipanostuksia yhdellä yksiköllä valittuun kanavaan? Entä jos panostus on nolla, paljonko myynti on silloin (vakion arvo)?

Regressioanalyysia voidaan käyttää lukemattomilla eri aloilla, kuten taloustiede, lääketiede, yhteiskuntatiede. Viime aikoina regressioanalyysi on yleistynyt voimakkaasti markkinointianalytiikassa, jossa se täydentää hyvin esimerkiksi perinteistä Web-analytiikkaa ja markkinoinnin tehokkuuden mittaamista, erityisesti koska se ei ole sidottu vain verkossa tapahtuviin myynteihin ja markkinointitoimiin.

Regressioanalyysia voimme siten hyvin hyödyntää, kun laskemme vaikkapa sanomalehti- tai TV-panostusten yhteyttä kivijalkamyymälöissä tapahtuvaan myyntiin. Asian tutkimiseksi tarvitsemme vain riittävästi dataa: havaintopareja (panostus - myynti) esim. eri viikkoina tai päivinä. Mitä enemmän meillä on dataa, sitä tarkempia arvioita voimme saada. Markkinointipanostusten ekonometrisessä mallintamisessa pyritään usein keräämään kahden vuoden aineisto, jonka pohjalta regressioanalyysi lasketaan.

Korrelaatio, riippuvuus (correlation)

Kahden muuttujan välinen yhteisvaihtelu, eli kun esimerkiksi tuotteen hinta nousee, myynti helposti laskee. Silloin sanotaan, että hinnan ja myyntimäärien välillä on negatiivinen korrelaatio. Kun korrelaatio on positiivinen, toisen muuttujan kasvaessa toinenkin nousee. Esimerkiksi jos markkinointipanostus toimii toivotulla tavalla, myynti kasvaa tietyssä suhteessa, kun panostus kasvaa. Ekonometrian avulla voidaan laskea tai ennustaa, paljonko myynti kasvaa, kun panostusta nostetaan tietyllä määrällä.

On tärkeä muistaa, että vahvakaan korrelaatio kahden muuttujan välillä ei todista syy-seuraus-suhdetta. Esimerkiksi koulutusaste korreloi bruttokansantuotteen kanssa, mutta ei voida olla varmoja, kumpi on syy, kumpi seuraus. Joko korkea koulutustaso voi kohottaa bruttokansantuotetta, tai sitten onkin niin, että kun BKT on korkea, on varaa paremmin kouluttaa väestöä.

Korrelaatiokerroin (coeffecient of correlation)

Kahden muuttujan välistä riippuvuutta voidaan mitata laskemalla niiden välinen korrelaatiokerroin. Pearsonin korrelaatiokerroin on muuttujien mittayksiköistä riippumaton tunnusluku, ja sen suuruuteen ei vaikuta muuttujien järjestys. 

Pearsonin korrelaatiokerroin lasketaan kaavasta, jossa muuttujien välinen kovarianssi jaetaan keskihajontojen tulolla. Silloin saadaan lukuarvoja, jotka vaihtelevat vain -1:n ja +1:n välillä. Eli muuttujien välillä voi olla negatiivinen tai positiivinen korrelaatio, tai korrelaatio voi olla nolla, jolloin muuttujien välillä ei ole suoraviivaista riippuvuutta.

Korrelaatiokertoimen arvo +1 tarkoittaisi sitä, että kaikki havaintopisteet sijaitsevat samalla nousevalla suoralla.

Korrelaatiokertoimen arvo -1 tarkoittaisi, että kaikki havaintopisteet sijaitsevat samalla laskevalla suoralla.

Regressiosuora, Regressiokerroin, kulmakerroin (coeffecient of correlation, slope coefficient)

Regressioanalyysissa lasketaan regressiosuoran kulmakerroin (correlation coefficient) kullekin selittävälle muuttujalle. Kulmakertoimen laskukaava on varsin yksinkertainen, jos selittäviä x-muuttujia on vain yksi: x- ja y-muuttujien kovarianssi jaetaan x-muuttujien varianssilla.

Ko. muuttujan regressiosuora on laskeva suora, jos kulmakerroin selitettävän muuttujan kanssa on negatiivnen, ja puolestaan nouseva suora, jos korrelaatio on positiivinen sekä vaakasuora, jos korrelaatio on nolla.

Regressiokerroin kertoo suoraan, kuinka paljon selitettvän y-muuttujan arvo muuttuu, kun selittävä x-muuttuja kasvaa yhden yksikön. Tätä kutsutaan myös termillä marginaalivaikutus.

Regressiosuoran vakio (intercept) kertoo, missä kohtaa regressiosuora leikkaa y-akselin. Silloin vakiotekijä pyrkii kuvaamaan y:n arvoa silloin, kun x:n arvo on nolla. Mikä on esimerkiksi yrityksen myynti silloin, kun markkinointipanostus kanavaan x on nolla?

Regressioanalyysin hajontakaaviossa edellä mainittu Pearsonin korrelaatiokerroin voidaan esittää etäisyytenä, kuinka lähellä regrerssiosuoraa havainnot ovat.

Regression korrelaatiokerroin, Multiple R

Regressioanalyysin tilastollisessa yhteenvedossa esitetään lisäksi Multiple R, joka käännetään vain korrelaatiokertoimeksi. Tämä korrelaatiokerroin onkin sama kuin Pearsonin korrelaatiokerroin, joka voidaan laskea myös Excelin funktiolla KORRELAATIO, mutta vain silloin, kun tarkasteltavia selittäviä muuttujia on vain yksi. 

Mutta silloin, kun selittäviä muuttujia on useampia, Multiple R kuvastaa selittävien muuttujien yhteistä korrelaatiota selittävän muuttujan kanssa, englanniksi the multiple R is the coefficient of multiple correlation.

Mallin selitysaste, R2, R Squared, coefficent of determination

Lineaarisen regression Multiple R:n neliö R2 (engl. R Squared) on puolestaan regressiomallin selitysaste. Se määritellään varsinaisesti siten, kuinka suuren osan selitettävän muuttujan vaihtelusta regressiomalli yhteensä selittää. Laskukaava on R2 = RSS / TSS, jossa RSS on regressiomallin Sum of Squares eli neliösumma, TSS = Total Sum of Squares, eli kokonaisvaihtelu. TSS saadaan laskukaavasta, jossa lasketaan selitettävän muuttujan havaintoarvojen ja niiden keskiarvon erotuksten neliösumma, tästä siis tuo nimitys neliösumma eli Sum of Squares. TSS:n eli totaalivaihtelun ja mallin selittämän vaihtelun RSS erotus on ESS, eli residuaalien  (jäännöstermien) neliösumma.

Estimointi, estimaattorit, estimaatit

Estimoinnilla tarkoitetaan sitä, että otokseen perustuen pyritään etsimään parasta arviota perusjoukon parametrin oikealle arvolle. Estimaattori on estimoinnissa käytettävä otossuure, estimointikaava, jonka avulla lasketaan havaintoaineistosta lukuja, estimaatteja, joka on estimaattorin arvo.

Estimaattoria kuvaillaan seuraavanlaisilla termillä:

  • estimaattori on harhaton (unbiased), jos estimaattori osuus keskimäärin oikeaan, jolloin sen otosjakauman odotusarvo on estimoitavan parametrin arvo. Harha on odotusarvon poikkeama estimoitavan parametrin arvosta.
  • estimaattori on asymptootteisesti harhaton, kun harha lähestyy nollaa, kun otoskoko kasvaa
  • estimaattori on tehokas (efficient), jos estimaattori on asymptoottisesti harhaton ja sillä on pienin mahdollinen varianssi
  • estimaattori on tarkentuva (consistent), jos estimaattorin varianssi lähestyy asymptoottisesti nollaa, eli otoskoon kasvaessa estimaattorin arvot keskittyvät yhä tiiviimmin parametrin todellisen arvon ympärille

Edellä mainitusta voidaan hyvin päätellä, että pienillä otoskoolla harvoin saadaan tarkkoja estimaattoreita, ja mitä enemmän saadaan havaintopareja usein estimaattorikin tarkentuu. On hyvä muistaa myös se, että kun meillä on havaintoja vain tietyiltä skaalalta x-akselia, regressiosuorankaan ei voida olettaa pätevän havaintoalueen ulkopuolella. Siten jos markkinointipanostukset vaihtelevat vaikka kuukausittain 10.000 euron ja 200.000 euron välillä, emme regressiosuoran avulla pysty välttämättä ennustamaan regressiomallin avulla myyntiä yli 200.000 euron panostuksilla. Uudet havainnot jälleen tarkentavat estimaattoria.

Kovarianssi (covariance) Kovarianssilla tarkoitetaan kahden muuttujan yhteisvaihtelua. Termiä käytetään tilastollisen riippumattomuuden määrittelyssä. Jos kaksi satunnaismuuttujaa on toisistaan riippumattomia, niiden yhteisvaihtelu eli kovarianssi on nolla.

PNS (OLS), Pienimmän neliösumman menetelmä, Ordinary Least Squares

PNS eli englanniksi OLS on yleisimmin regressioanalyysissa käytetty estimaattori erityisesti ekonometriassa. Tämä johtuu siitä, että kun tietyt lineaarisen regressioanalyysin edellytykset täyttyvät, OLS on ei ole ainoastaan yksi, vaan paras (tehokkain) harhaton estimaattori.  Tämä perustuu Gauss Markovin teoreemaan, jonka mukaan tiettyjen edellytysten täyttyessä OLS tuottaa Best Linear Unbiased Estimator = BLUE. "Parhaalla" viitataan tässä alhaisimpaan varianssiin verrattuna muihin harhattomiin estimaattoreihin.

Keskivirhe (Standard error)

Regressioanalyysin selittävän muuttujan keskivirhe (standard error) raportoidaan jokaiselle analyysiin mukaan otetulle tekijälle sekä koko mallille erikseen. Keskivirhe mittaa sitä, kuinka kaukana saadut havainnot keskimäärin olivat mallin regressiosuorasta. Mitä pienempi ero, sitä parempi.

Keskihajonta (standard deviation)

Keskihajonta eli standardipoikkeama on tärkein hajontaluku. Se mittaa havaintoarvojen hajaantumista keskiarvon ympärillä. Kahdella muuttujalla voi olla täysin sama keskiarvo, mutta niiden hajonta voi olla täysin erilainen. Siksi keskiluvun rinnalla esitetään usein myös hajontaluku.

Keskihajonnan neliö on nimeltään varianssi.

T-testi, testisuure, p-arvo, F-testi

Regressioanalyysissa jokaisen selittävän muuttujan kulmakertoimen tilastollinen merkitsevyys lasketaan. Studentin T-testin testisuureen t-arvo saadaan suoraan jakamalla kulmakerroin keskivirheellä (Coefficient of correlation/ Standard error), ja t-jakaumien taulukosta tai Excelistä saadaan kriittinen raja-arvo, jonka testisuureen pitää alittaa, jotta muuttujan kerrointa voidaan pitää nollaa suurempana tilastollisten kriteerien mukaan. SIten saamme todennäköisyydet sille, että kerroin on nollaa suurempi esimerkiksi 99 % varmuudella, jolloin mahdollisuus siihen, että tulos selittyy pelkällä sattumalla on enää 1%.

T-testin lisäksi on käytettävissä p-arvo, joka lasketaan myös jokaiselle selittävälle muuttujalle. Mitä pienempi p-arvo, sitä enemmän tukea saadaan nollahypoteesia vastaan, jonka mukaan kerroin onkin nolla. P-arvon avulla saadaan siis tilastollinen varmuus, esim. 95% ja 99% varmuus sille, että kerroin ei ole nolla. Suuri p-arvo hälyttää vastaavasti siitä, että kerroin ei ehkä olekaan merkittävä eikä sitä välttämättä kannata ottaa lainkaan regressiomalliin mukaan.

Koko regressiomallille, esimerkiksi 10 eri muuttujan mallille, saadaan vielä F-testin avulla tilastollinen testi, joka kertoo, pystytäänkö regressioanalyysissa mukana olevilla muuttujilla selittämään riippuvan muuttujan vaihtelua. Nollahypoteesina on, että kaikkien muuttujien vaikutus on nolla, jolloin sitä ei ole vaikea kumota. Voikin joskus käydä niin, että yhdenkään muuttujan regressiokerroin ei ole tilastollisesti merkitsevä, mutta koko mallin F-testin tulos on. Silloin siis yksikään muuttuja yksin ei ole tilastollisesti merkitsevä, mutta mallin muuttujat yhdessä pystyvät silti selittämään y-arvon vaihtelua.

Varianssi (variance)

Varianssi on tilastollista hajontaa mittaava termi. Se ilmoittaa, miten suuria keskimäärin ovat neliöidyt poikkeamat keskiarvosta.

Kun varianssi on pieni, muuttujien arvot keskittyvät odotusarvon ympärille tiiviisti. Vastaavasti jos arvot ovat hajallaan odotusarvon ympärillä, varianssin arvo on suuri.

Vapausasteet (degrees of freedom)

Regressioanalyysin tulosteissa näkyy vapausasteiden (degrees of freedom) määrä regressiomallille, residuaaleille ja yhteenlaskettu vapausasteiden määrä. Vapausasteiden määrä sisältyy moniin laskukaavoihin, ml. merkitsevyystestien testisuureiden ja keskihajonnan laskentaan. Vapausasteiden kokonaismäärä on havaintojen määrä miinus 1. Regressimallien vapausasteiden määrä on sama kuin malliin mukaan otettujen selittävien muuttujien määrä.

Virhetermi, jäännöstermi (error term/disturbance, residual)

Virhetermiä ja jäännöstermiä eli englanniksi error term / residual käsitellään monessa opetusmateriaalissakin täysin synonyymeinä, vaikkakin tarkalleen ottaen teorian populaatioregressiomallissa on virhetermi ε (disturbance/error term), jolle on listattu useita oletuksia, joita sen tulisi täyttää. Virhetermi on määritelmällisesti havaintoarvon poikkeama todellisesta (siis koko populaatiosta lasketusta) parametrin arvosta: "An error term in statistics is a value which represents how observed data differs from actual population data." Regressiomallissa voitaisiin vastaavasti puhua ennustevirheestä ε, joka on siis muuten deterministisen, suoraan kaavasta johdettavan mallin virheosa.

Käytännön estimoinnissa, kun kyse on otoksen parametrien arvojen estimoinnista, meillä ei ole aina edes tietoa todellisesta parametrin arvosta, ja siksi usein virhetermin sijasta puhutaankin jäännöstermistä (residual), joka mitataan sillä, kuinka paljon havaintoarvo poikkeaa regressiomallin perusteella esim. lineaarisen regressiosuoran ennustetusta arvosta - todellista arvoa kun ei aina tiedetä. Jäännöstermi on ikään kuin estimaatti todellisesta virhetermistä: havaitun arvon ja selitettävän muuttujan y sovitteesta (fit) (joka on saatu regressiomallin kaavasta) laskettu erotus.

Näitä teoreettisia eroja sekoittaa tietenkin sitten se, että käytännön regressioanalyyseissa hyvin usein sekä x:n että y:n arvot tunnetaan, esimerkiksi markkinointipanostus-myyntiluvut tai asunnon neliöt ja muut hintaan arvioidut asunnon hintaan vaikuttavat tekijät sekä toteutunut asunnon myyntihinta, jolloin selitettävän muuttujan y arvot todellakin tiedetään ja ne ovat faktoja, eivätkä mitään pelkkiä kaavasta laskettuja ennustearvoja.

Kuvaavaa on, että suomenkielisessä Wikipediassa virhetermi ja residuaali selitetään synonyymeina, englanninkielisessä Wikipediassa niiden välillä on "hienon hieno, mutta tärkeä ero"!

Odotusarvo (expectation), Satunnaismuuttujat (random variable)

Odotusarvoksi kutsutaan satunnaisilmiön tuottamien lukujen odotettavissa olevaa arvoa. Numeerisia lukuarvoja tuottavia satunnaisilmiöitä kutsutaan satunnaismuuttujiksi. 

Matemaattisesti määritellään erikseen diskreetti ja jatkuva satunnaismuuttuja.

Diskreetistä satunnaismuuttujasta esimerkkinä voi olla kuusitahoinen arpakuutio, jonka kaikkien pistelukujen todennäköisyys on sama. Matemaattisen kaavan mukaan arpakuutiota heittämällä pelaaja voi laskea odotusarvoksi etenevänsä noin 3,5 askelta heittokierrosta kohti. Tämä luku lasketaan siis kaavalla, jossa on mukana mahdollisten arvojen joukko ja niiden esiintymistodennäköisyys.

Jatkuva satunnaismuuttuja on satunnaismuuttuja, joka voi saada vain ei-negatiivisia arvoja, joiden jakaumaa voidaan kuvata todennäköisyys- eli tiheysfunktiolla. Esimerkkinä pilkkikilpailussa saatujen kalojen painot. Jatkuvan satunnaismuuttujan mahdollisia arvoja on ääretön määrä, eikä eri muuttujien todennäköisyyksiä voi luetella, vaan ne on lausuttava lausekkeen muodossa. 

Jatkuvat satunnaismuuttujat liittyvät usein laskelmiin, joissa käsitellään jatkuvia suureita, kuten paino, pituus, pinta-ala, aika, nopeus, lämpötila, rahamäärä tai korko. Siten esimerkiksi verkkokaupan päivittäinen myyntiluku olisi tyypillinen jatkuva satunnaismuuttuja.

Stokastinen prosessi

Stokastisella prosessilla tarkoitetaan matemaattisia prosesseja, joilla pyritään kuvaamaan todellisuuden prosesseja, jotka etenevät ajassa sattumanvaraisesti. Esimerkkinä vaikkapa lämpötilan satunnaiset heilahtelut mittausasemalla. Vaikka meillä olisi kuinka paljon mittaushistoriaa menneistä lämpötiloista eri vuosina, kehityksen ennustaminen tarkasti ei satunnaisuuden takia ole mahdollista. Satunnaismuuttujaa kutsutaankin stokastiseksi muuttujaksi.

Stationaarinen aikasarja

Stationaariseksi kutsutaan sellaista aikasarjaa, jossa sen tilastolliset ominaisuudet (kuten keskiarvo, varianssi) eivät muutu systemaattisesti ajan kuluessa. Useimmat aikasarja-analyysin menetelmät vaativat normaalijakautuneen ja stationaarisen aikasarjan, ja siksi usein tehdään aikasarjaan muunnoksia ennen analyysiä: esimerkiksi lasketaan logaritmi- tai neliöjuurimuunnokset.

Deterministinen osa aikasarjaa

Aikasarja voidaan jakaa kahteen pääkomponenttiin: deterministinen osa ja satunnaisvaihtelu. Determinististä osaa edustavat esimerkiksi trendit,  kausivaihtelut vuoden sisällä, suhdannevaihtelut.

Aikasarjaan usein sovellettava regressiomalli on AR eli Autoregressive, jossa aikasarjan edelliset havainnot ovat mallin selittäjinä.

Yksikköjuuri (Unit root)

Stokastisen ja deterministisen trendin erottaa yksikköjuuri (unit root). Stokastisessa trendissä on yksi tai useampi yksikköjuuri, ja jos yksikköjuurta ei ole, prosessia voidaan mallintaa deterministenä trendinä.

Dickey-Fullerin testillä voidaan testata yksikköjuuren olemassaolo. Nollahypoteesina on, että yksikköjuuri on olemassa, jolloin kyse on stokastisesta trendistä. Vaihtoehtoinen hypoteesi on, että aikasarja on stationaarinen.

 

 

 

 

 

 


Regressioanalyysin edellytykset tai rajoitteet

Regressioanalyysin käyttö on viime vuosina yleistynyt tilastollisena analyysimenetelmänä voimakkaasti, mutta samalla on huomattu, että sitä käytetään surutta silloinkin, kun sen edellytykset eivät täyty. Idea on tietysti se, että näiden edellytysten pitää täyttyä, jotta regressioanalyysista saataisiin luotettavia tuloksia. Käydään seuraavassa läpi lineaarisen regressioanalyysin edellytykset. Yksinkertaisuuden vuoksi käsitellään tässä yhden muuttujan mallia, vaikka selittäviä muuttujia voi tietysti regressioanalyysissa olla yksi tai useampia.

1) Lineaarisuus

2) Virhetermien vaihtelu eli varianssi säilyy vakiona = homoskedastisuus (jonka vastakohta on heteroskedastisuus, jolloin virhetermien varianssi vaihtelee)

3) Selittävä muuttuja ei saa korreloida virhetermin kanssa; endogeenisyysongelma

4) Virhetermien riippumattomuus toisistaan; ei autokorrelaatiota

5) Virhetermien normaalijakautuneisuus

6) Ei täydellistä multikollineaarisuutta

Toisinaan rajoitteena mainitaan lisäksy joskus poikkeavat havainnot eli englanniksi outliers - edellytykseksi niitä on kuitenkaan turha listata, koska ei poikkeavilta havainnoilta voi oikeassa elämässä täysin välttyä. Parasta tietysti olisi, jos vahvasti poikkeavia havaintoja ei olisi lainkaan, ja jos niitä ilmenee, on syytä tutkia, ettei ole ainakaan koodaus- tai mittausvirheestä kyse. Jos poikkeamat ovat todellisia, kannattaa alkaa miettiä, onko jokin selittävä tekijä, joka selittää poikkeaman, ja lisätä se malliin. Esimerkkinä asuntojen myyntihinnoissa voidaan havaita suuria poikkeamia ennusteesta, ja löytää selittävä tekijä - esimerkiksi merinäköala tai tulossa oleva putkiremontti - joka selittääkin suuret poikkeamat ennustettuun hintaan nähden.

Virhetermi tarkoittaa siis teoreettisesti regressiomallin selittämättä jäänyttä osaa, jonka suuruutta ei voi tietää. Estimoitaessa jäännöstermi lasketaan selitettävän muuttujan y:n havaitun arvon ja sen mallin perusteella ennustetun arvon, sovitteen erotuksena. Hyvässä mallissa jäännöstermi on pieni ja täysin satunnainen.

Miten edellytysten toteutumista mitataan?

Mistä sitten voidaan analysoida, täyttyvätkö nämä lineaarisen regressioanalyysin edellytykset? 

1) Lineaarisuuden tarkastelu

Regressiomalleja on toki muitakin kuin lineaarisia, mutta lineaarisesta mallista puhutaan silloin, kun y- ja x-muuttujien välillä on lineaarinen eli suoraviivainen yhteys. Tämä ilmenee tietysti helposti graafisesta hajontakuviosta (scatter plot), josta voidaan tarkastella, sijaitsevatko havaintoparit kuviossa lineaarisella trendillä, joka voi olla nouseva tai laskeva. 

Toiseksi voidaan tarkastella esim. Excelin regressioanalyysin jäännöstermikuviota (residual plot). Siinä vaaka-akselilla selittävä muuttuja, pystyakselilla virhetermi eli y:n ja sen ennusteen erotus. Jäännösten tulisi olla symmetrisesti x-akselin molemmin puolin, ilman havaittavaa trendiä tai rakennetta.

Mallin selitysaste R - mitä lähempänä se on ykköstä, sitä tarkemmin lineaarista suoraa havainnot seuraavat.

2) Homoskedastisuus, jäännöstermien varianssi, onko vakio

Regressioanalyysin yhtenä oletuksena on, että jäännöstermien varianssin tulisi olla likimain vakio kaikilla selittävän muuttujan arvoilla. Vastakkaisessa tilanteessa eli heteroskedastisuudessa havaitaan, että jäännöstermien vaihtelun voimakkuus muuttuu x-asteikon eri arvoilla, eli esimerkiksi suuremmilla x:n arvoilla jäännöstermien vaihtelu alkaa voimistua.

Tietenkin voidaan grafiikasta jo tarkastella jäännöstermikuviosta, säilyykö jäännöstermien vaihtelu vakiona. Lisäksi on tarjolla käytetystä ohjelmistosta riippuen erilaisia testejä, joiden avulla voidaan testata varianssia, onko se vakio:

  • F-testi kahden varianssin eron testaamiseen, eli esim. puolitetaan jäännökset kahteen osaan ja verrataan onko eroja
  • Levenen testi useamman kuin kahden varianssin testaamiseen
  • BP-testi eli Breusch-Pagan testi
  • White test
  • Brown-Forsythe test

Testien ideana on tietenkin saada testiarvo, jota verrataan kriittiseen arvoon, ja sen perusteella hyväksytään tai hylätään nollahypoteesi, ja saadaan vahvaa näyttöä homoskedastisuudelle. Todennäköisyyttä voidaan testata eri merkitsevyystasoilla, jolloin saadaan mitattua esim. 1% tai 5% varmuus sille, että tulos ei johdu sattumasta. Jos käytössä on pelkästään Excel, niin F-testille on funktio FTEST (suomenkielisessä FTESTI). 

3) Selittävä muuttuja ei saa korreloida virhetermin kanssa, eksogeenisyys

Jos selittävä muuttuja mallissa korreloi virhetermin kanssa, meillä on ns. endogeenisyysongelma. Silloin pienimmän neliosumman estimointiemenetelmällä ei saada luotettavia estimaatteja mallin parametreistä, vaan estimaattori on harhainen (biased) ja tarkentumaton (incosistent). Yleisimmät tilanteet, jolloin endogenisyyttä esiintyy, ovat puuttuvat selittävät muuttujat, mittausvirheet selittävissä muuttujissa ja samanaikaisuusharha (esimerkiksi hallitus päättää lisätä poliisivoimia, kun rikollisuus on kasvussa, jolloin molemmat kasvavat samanaikaisesti, sekä rikollisuus että poliisivoimien määrä).

Endogeenisyyttä voidaan testata esimerkiksi (Durbin-Wu-)Hausmanin testillä, joka vertailee OLS- ja IV-estimaattoreita, ja niiden regressiokertoimia sekä keskivirheitä. Nollahypoteesina on, että OLS on harhaton (unbiased) ja tarkentuva (consistent). Vastakkaisessa tapauksessa, eli kun endogeenisyyttä esiintyy, onkin suositeltavaa käyttää estimointiin instrumenttimuuttujamenetelmää (IV), eikä pienimmän neliösumman menetelmää (PNS eli englanniksi OLS), joka tuottaisi harhaisia tuloksia.

4) Virhetermien riippumattomuus

Virhetermit eivät regressioanalyysissa saisi korreloida keskenään, mutta esimerkiksi aikasarja-analyyseissa, jos vaikka tutkitaan työttömyysasteen kehitystä vuodesta toiseen, virhetermit korreloivat joskus vahvasti. Silloin puhutaan autokorrelaatiosta, eli aikasarjassa seuraava arvo on ennustettavissa edellisten arvojen avulla.

Autokorrelaatiota voidaan testata jälleen ohjelmistosta riippuen eri testeillä, kuten:

  • Durbin-Watson test (jonka testisuureen saa laskettua myös Excelillä, mutta p-luvun vertailutaulukkoa tarvitaan merkitsevyyden määrittelyyn, ja taulukkoarvoja ei ole Excelissä)
  • Runs test (Waldin-Wolfowitz), pystyy laskemaan Excelillä, vaikkakin kaavat ovat mutkikkaat

Durbin-Watsonin testin voi helpoimmin tehdä suoraan esim. SPSS-ohjelmistolla tai XLSTAT-lisäosalla, jonka voi ladata Exceliin.

5) Virhetermien normaalijakautuneisuus

Virhetemien normaalijakautuneisuusoletusta ei välttämättä aina mainita regressioanalyysin edellytyksenä, sillä useimmin käytetty estimointimenetelmä, PNS eli pienimmän neliösumman menetelmä (engl. OLS = Ordinary Least Squares), ei edellytä virhetermien normaalijakaumaa. 

Jälleen käytetystä tilasto-ohjelmistosta riippuen meillä on käytettävissä testejä, jotka mittaavat, ovatko virhetermien poikkeamat normaalijakaumasta tilastollisesti merkitseviä vai eivät.

6) Multikollineaarisuus

Regressioanalyysissä on aivan luonnollista, että selittävät muuttujat korreloivat keskenään. Joskus niiden keskinäinen korrelaatio voi olla kuitenkin niin suurta, esim. niiden välinen korrelaatiokerroin on yli 0.9, että tämä alkaa haitata regressioanalyysin tulosten tarkkuutta. Siksi voidaankin lisätä vielä viidenneksi regressioanalyysin edellytykseksi se, ettei selittävien muutujien välillä ole ainakaan täydellistä multikollineaarisuutta, jolloin yksi selittävä muuttuja voitaisiin laskea toisen avulla.

Multikollineaarisuuden mittaamiseen on kehitetty erilaisia mittareita, jotka ilmaisevat mahdollisen ongelman vakavuuden, kuten VIF-mittari, joka on käytettävissä esim. SPSS-ohjelmistossa. VIF-arvo ei saisi ylittää 10:tä.

Miten korjata edellytysongelmia?

Jos edellä mainitut regressioanalyysin edellytykset eivät toteudu, vaan jokin niistä estää luotettavan analyysin toteuttamisen, tämä ei vielä välttämättä tarkoita sitä, että pitäisi luopua kokonaan regressioanalyysista. Sillä regressioanalyysi tarjoaa useita tapoja ottaa rajoitteet huomioon, ja "korjata" niiden vaikutukset. Voimme vaihtaa estimointimenetelmää, tai käyttää erilaisia tekniikoita tai korjata esimerkiksi lineaarisuusoletusta muuttujien muunnoksilla. Mutta palataan näihin seuraavassa blogissamme!

 


Ekonometria yleistyy yritysmaailmassa

Wikipedia kuvailee ekonometrian tilastotieteen menetelmien soveltamiseksi, kun tutkitaan taloudellisia ilmiöitä. Ekonometriaa koulutetaan korkeakouluissa useassa eri tiedekunnassa kauppatieteistä matemaattiseen ja maatalous-, ympäristö- ja elintarviketalouden kandiohjelmissa. Tämä tietysti viittaa siihen, että ekonometrian menetelmien avulla voidaan tutkia monenlaisia asioita, kun etsitään vastauksia esim. tekijöistä, jotka vaikuttavat talouden tilaan, hintoihin (esim. asuntojen hinnan muodostumiseen), markkinoinnin tehokkuuteen, rahoitukseen, kansantalouteen jne.

Ekonometria analysoi riippuvuuksia

Ekonometrian yleisin menetelmä on regressioanalyysi, jonka avulla voidaan selvittää eri asioiden välisiä riippuvuuksia. Syy-seuraussuhteistahan riippuvuus eli korrelaatio ei aina kerro - klassiset esimerkit kertovat jäätelönsyönnin ja hukkumiskuolemien vahvasta korrelaatiosta, vaikka edellinen ei ole jälkimmäisen syy. Yhtä lailla kouluesimerkeissä voidaan analysoida korkeakoulutettujen osuutta väestöstä ja analysoida sen yhteyttä bruttokansantuotteeseen eri maissa, mutta vaikka korrelaatio voi olla selkeä, ei voida varmuudella sanoa johtuuko korkea BKT korkeakoulutettujen määrästä, vai olisiko sittenkin niin päin, että kun maassa on korkea bruttokansantuote, on varaa kouluttaa väestöä paremmin...

Ekonometrian avulla saadaan kuitenkin tuloksiksi tilastollisella varmuudella laskettuja prosenttiosuuksia, korrelaatiokertoimia ja voidaan testata erilaisia hypoteeseja, ja tilastomatematiikan varmuudella hyväksyä tai hylätä jokin oletus tai väittämä. Kun ekonometrisen mallinnuksen lopputuloksena saadaan matemaattinen kaava, sen avulla voidaan tietysti ennustaa myös tulevaa, eikä ainoastaan selittää historiadatan avulla eri asioiden riippuvuuksia.

Usein riittää, kun riittävän varmasti voidaan poissulkea turhia investointeja

Markkinoinnin puolella klassinen klisee on, että puolet markkinoinnista menee hukkaan, mutta emme tiedä, kumpi puoli. Entä jos analysoidaan myynti- ja markkinointipanostusdataa aikasarjana, ja tutkitaankin ekonometrian avulla, mikä on minkäkin panostuksen selitysosuus myynnistä.

Silloin voi melkeinpä olla hyödyllisintä tieto, että jokin asia tai tietty markkinointikanava ei lainkaan korreloi myynnin kanssa, tai korrelaatio on hyvin alhainen. Tietenkin mainosväki silloin vielä selittää, että mainonnan vaikutus on pitkäkestoista, ja vaikutus ei näy lyhyen aikavälin mittauksissa. Mutta kyllä yritysjohto olisi varmasti kiitollinen siitä, että joku laskee tilastomatemaattisella varmuudella, että 99 % todennäköisyydellä jokin markkinointitoimenpide ei vaikuta myyntiin millään tavalla - tuskinpa suurempaa spekulointia silloin toimenpidesuosituksiin tarvitaan.

Econometrics_sales-price

Mihin ekonometriaa hyödynnetään?

Liiketaloudessa ekonometriasta on hyötyä paitsi markkinoinnin tehokkuuden mittauksissa, myös hinnoittelussa (yllä esimerkissä graafi, jossa myyntiluvut eri hinnoilla, ekonometrisen mallin avulla voidaan ennustaa myynti eri hintavaihtoehdoilla), rahoitusalalla, sijoittamisessa tai investointipäätöksiä tehtäessä. Ekonometrian kursseilla on spekuloitu myös sitä, miksi ekonometria yleistyy voimakkaasti juuri nyt, kun sen menetelmät ovat olleet tilastotieteen oppikirjoissa sata vuotta.

Ainakin yksi selittävä tekijä tähän on se, miten kaikilla yrityksillä ja yhteisöillä on nykyisin yhä enemmän ja yhä tarkempaa dataa esim. kuluttajakäyttäytymisestä ja ostopoluista, mm. analytiikan ja digimarkkinoinnin ansiosta. Toisaalta tietokoneet ovat monin verroin aiempaa tehokkaampia, ja samalla koneoppiminen ja älyteknologia edistyvät ja tuovat lisätehoa datan analysointiin ja sitä kautta avulla toiminnan ohjaamiseen kohti ennalta määriteltyjä tavoitteita.

- Ismo Tenkanen

 

 


Econometrics - mitä se on?

Digikanavien osalta Web-analytiikka on jo pitkään tarjonnut mahdollisuuden analysoida eri liikenteen lähteiden ja kanavien toimivuutta ja kustannustehokkuutta mainostajan näkökulmasta. Mutta miten päästään analysoimaan offline-mainonnan - kuten TV-mainonta, radiomainonta, printtimainonta - yhteyksiä myyntilukuihin (myös verkon ulkopuolella) ja saittiliikenteeseen? Juuri tähän tarjoaa Econometrics ratkaisun.

Econometrics-dashboard

Ekonometriset mallinnukset mediatoimistoissa

Kansainvälisessä mediatoimistossa seitsemän vuotta työskenneltyäni tiesin hyvin, että globaalit toimistot pyysivät isoilta mainostajilta myyntilukuja ja markkinointipanostuslukuja, ja näiden pohjalta tehtiin sitten laskelmia, miten eri mediapanostukset korreloivat myyntiin, Luvut lähetettiin analytiikkaan erikoistuneelle yksikölle, ja parissa päivässä saatiin luvut, jotka kertoivat eri kanavien korrelaatiot myyntiin, ja näiden pohjalta laadittiin sitten asiakkaalle vuositason suositukset, mihin kanaviin ja kanavakombinaatioihin kannattaisi jatkossa panostaa enemmän.

Toisaalta olin markkinointialan tapahtumissa ja seminaareissa ollut kuuntelemassa useampaan kertaan case-esimerkkejä isojen mainostajien ekonometrisistä mallinnuksista, joiksi kutsuttiin matemaattisia mallinnuksia, joilla pyrittiin laskemaan eri tekijöiden osuutta myyntiluvuista: mukana mallinnuksissa olivat paitsi edellä jo mainitut markkinointipanostukset eri kanaviin, myös esimerkiksi säätila tai lämpöasteet, kilpailijoiden markkinointipanostukset ynnä muut tekijät, joiden oli havaittu osaltaan vaikuttavan suoraan myyntiin.

Mihin tilastotieteen metodiin ekonometriset mallinnukset rakentuvat? Jo pelkästään Wikipedian selitys termille Econometrics on varsin valaiseva. Lyhyesti ja yksinkertaisesti "Econometrics" on tilastollisten menetelmien soveltamista talouslukujen välisten riippuvuussuhteiden selvittämiseen. Ekonometrian perustyökaluksi Wikipediassa mainitaan lineaarinen regressioanalyysi. Yksinkertainen lineaarinen regressioanalyysi onnistuu nykyisin jopa Excelistä Analytiikka-lisäosan avulla, mutta järeämpien maksullisten ohjelmistojen ja älyteknologian avulla onnistuvat nykyisin hyvinkin mutkikkaat monimuuttujaiset ja myös epälineaariset mallinnukset.

Regressioanalyysi markkinointipanostusten ja myynnin riippuvuuden laskentaan

Regressioanalyysilla voidaan tutkia minkä tahansa kahden tai useamman muuttujan riippuvuutta. Usein kouluesimerkit regressioanalyysista liittyvät esim. koulutuksen ja palkkatason yhteyteen, tai terveysasioihin, kun analysoidaan onko jollain asialla yhteyttä sairastumiseen (kuten tupakointimäärä - keuhkosyöpä) jne. Mediatoimistoissa on vuosikausia pyritty analysoimaan eri markkinointipanostusten kustannustehokkuutta, ja miten erilaisilla panostuksilla eri mediakanaviin saadaan aikaan myyntiä, jolloin regressioanalyysin vähäinen hyödyntäminen toimialalla on suorastaan yllättävää. 

Digimarkkinoinnin puolella on kuitenkin jo 2000-luvun alusta asti analysoitu hyvinkin tarkkaan Web-analytiikan avulla eri liikenteen lähteiden konvertoitumista haluttuihin tavoitetapahtumiin, kuten myyntitransaktio, yhteydenottopyyntö tai vaikkapa vierailu hinnastossa tai yhteystiedot-sivulla. Aluksi lukuja tulkittiin turhankin yksioikoisesti ja tehtiin hätäisiä päätelmiä eri kanavien toimivuudesta, mutta Web-analytiikka on edellisen 10 vuoden aikana kehittynyt nopeasti, ja nyt attribuutiomallinnusten ja tekoälyyn perustuvien ohjelmistojen avulla voidaan tehdä hyvinkin edistyksellisiä laskelmia myös monikanavaisen markkina-analytiikan osalta. Eli suomeksi sanottuna pystytään huomiomaan ostopolun eri vaiheet ja ymmärretään se, että eri kanavat ovat ostopolun eri vaiheessa mukana.

Regressioanalyysi täydentää analytiikka erityisesti offline-myynnin ja offline-panostusten osalta

Web-analytiikan avulla on kuitenkin haastavaa päätellä verkon ulkopuolisten markkinointipanostusten toimivuutta, samoin kun digikanavien vaikutusta offline-myyntiin. Tietenkin jos on kyse satojen tuhansien eurojen TV-kampanjasta tai monimediakampanjasta, voidaan olettaa, että kampanjan alkaessa sekä liikenne asiakkaan sivustolla että myynti kiihtyvät. Erilaisin dashboardein ja grafiikoin on helppo todentaa, että kampanjan käynnistyessä sekä saittiliikenne että myynti lähtevät nousuun, ja vastaavasti kampanjan päättyessä vastaavat luvut putoavat.

Mutta kuinka suuri osa todetusta kasvusta oli minkäkin kanavan ansiota - etenkin, jos kyse on ollut monimediakampanjasta, jossa on samaan aikaan tai lähes samoina päivinä käynnissä useampia erilaisia mediakampanjoita esim. televisiossa, radiossa, netissä ja printissä? Juuri tällaisiin asioihin regressioanalyysillä voidaan menestyksekkäästi etsiä vastauksia. Regressioanalyysilla voidaan tutkia minkä tahansa muuttujien keskinäistä riippuvuutta, parhaina esimerkkeinä markkinoinnin osalta:

  • markkinointipanostukset eri kanaviin selittävinä muuttujina
  • muut mahdolliset myyntiin vaikuttavat tekijät, esim. lämpötila, kilpailijoiden panostukset, ilmainen näkyvyys mediassa, kausivaihtelut jne.

    Vastaavasti riippuvina (selitettävinä) muuttujina, joihin selittävien muuttujien yhteyttä analysoidaan:
  • myyntiluvut  (sekä verkossa että verkon ulkopuolella!)
  • myymäläkävijäliikenne 
  • sivustoliikenne tai liikenne tietystä lähteestä (suora tulo, orgaaninen haku, maksettu haku)

Minkälaisia tuloksia ja ennusteita analyysin avulla saadaan?

Monimuuttujaisen regressioanalyysin avulla pyritään rakentamaan malli, jolle saadaan laskettua selitysaste, kuinka monta prosenttia esim. myyntiluvuista malliin valitut eri tekijät yhteensä selittävät. Pelkkien markkinointipanostusten avulla harvoin päästään kovin korkeisiin selitysasteisiin, mutta ottamalla esim. normaalit sesonkivaihtelut ja hyvin tiedossa olevat myyntiin keskeisesti vaikuttavat muuttujat mukaan analysiin, saavutetaan jo 80-90 % selitysasteita. Sadan prosentin selitysastetta ei ole realistista saavuttaa, koska aina satunnaiset ja tuntemattomiksi jäävät tekijät selittävät osan ihmisten ostokäyttäytymisestä.

Koko mallin selitysaste ei kuitenkaan ole käytännössä analyysin avainasia, vaan tietenkin yritysjohtoa ja markkinointijohtoa kiinnostaa eniten yksittäisten selittävien muuttujien korrelaatiokertoimet myyntilukujen kanssa. Näille saadaan kullekin laskettua myös tilastollinen merkitsevyys, eli kuinka luotettava on laskettu tulos, esim. 95 %, 99 % varmuudella tulos ei johdu sattumasta.

Alla esimerkissä on laskettu Excelissä yhden muuttujan lineaarisen regressioanalyysin avulla korrelaatio erään mainostajan maksetun haun panostusten ja myyntieurojen välillä. Korrelaatiokertoimen (alla taulukossa Multiple R, käännetty "Kerroin R") arvo voi vaihdella miinus yhdestä plus yhteen, eli mitä lähempänä ollaan ykköstä, sitä tiiviimmin muuttujien luvut liikkuvat samaan suuntaan, mutta syy-seuraussuhdetta korrelaatio ei todista. Jos esim. yritys on päättänyt, että aina kiinteästi sama %-osuus myynnistä sijoitetaan viikoittain tai kuukausittain johonkin markkinointikanavaan, korrelaatio panostusten ja myynnin välillä on automaattisesti korkea, eikä tarkoita sitä, että ko. panostus selittäisi myynnin kasvun. Vaihtelemalla panostusta kuukausittain on kuitenkin helppo testata, kasvaako myynti panostuksen myötä ja missä suhteessa. Regressioanalyysi laskee tälle suhteelle kaavan ja sitä kautta ennusteen.

Lineaarinen regressioanalyysi tuottaa tulokseksi mallin ja yksinkertaisen laskentakaavan, jonka avulla voidaan yrittää ennustaa, minkälaisella yhtälöllä myyntitulot kasvaisivat erilaisin panostuksin. Esimerkissä myyntitulot toteutuisivat lineaarisen mallin mukaan yhtälöllä "Myynti = 1.3492 * panostus + 1526,90 euroa". Viimeksi mainittu vakio 1.526,90 euroa kertoo siis myynnin keskimäärin silloin, kun panostukset ovat nolla. 1.3492 on regressio- eli kulmakerroin, siis kuinka jyrkästi myynti kasvaisi markkinointipanostuksia lisättäessä. Tämä on markkinoinnin kustannustehokkuuden kannalta äärimmäisen tärkeä luku. Nythän kaavasta voidaan laskea, että esimerkiksi kymppitonnin mainospanostuksella saataisiin runsaan 15.000 euron myynti - ei siis vielä mikään huikea ROAS (Return of Ad Spend).

Käytännössä hakumainonnan osalta lineaarinen malli ei toteudu, koska valitulle avainsanajoukolle tulee ennen pitkää maksimi, jonka jälkeen lisäliikennettä ei kampanjaan valituilla avainsanoilla saada - koska niitä ei haeta enempää. Ja jos avainsanajoukkoa laajennetaan, uusien avainsanojen konversio ei välttämättä ole samaa tasoa kuin aiempien, jolloin todennäköistä on, että kannattavuus laskee, eli kulmakerroin ei pysy kaavan mukaisena.

Excel-taulukosta kannattaa huomata Microsoftin kömpelöt käännösvirheet: R Square on menty kääntämään "Korrelaatiokertoimeksi", vaikka kyse on Selitysasteesta. Oikea korrelaatiokerroin on tunnusluvuissa ylimpänä, ja se on jostain syystä nimetty "Kerroin R". Korrelaatiokerroin on esimerkissä 0.8869 eli hyvin korkea, ja selitysaste on esimerkissä 78,67 % eli varsin hyvä - jos se olisi täydet 100 %, malli olisi kelvoton. Jälkimmäinen luku siis kertoo, kuinka suuren osan vastemuuttujan vaihtelusta regressiomalli selittää. Vastaavasti "Tarkistettu korrelaatiokerroin" on puuta heinää käännöksenä, sillä kyse on "Adjusted R Square:sta", jonka oikea käännös olisi "korjattu selitysaste". Ko. luku oikaisee sen, että jokainen malliin lisättävä uusi muuttuja lisää varsinaista selitysastetta, vaikka näin ei olisi todellisuudessa. Korjattu selitysaste siis heikkenee, jos malliin lisätään muuttujia, jotka eivät selitä vastemuuttujan vaihtelua.

Korrelaatio_esimerkki

Korrelaatiokertoimista toimenpidesuosituksiin

Korrelaatio- tai regressioanalyysien kritiikissä aina muistutetaan, että korrelaatio, kahden asian todettu riippuvuussuhde ei aina tarkoita sitä, että toinen on syy ja toinen seuraus. Kaikki muistavat klassiset esimerkit vaikkapa jäätelönsyönnin ja hukkumiskuolemien välillä. Jäätelönsyönti ei kuitenkaan johda hukkumisalttiuteen, vaan vahvan korrelaation selittääkin väliintuleva muuttuja - lämpötila, kun molemmat asiat lisääntyvät helteellä.

Yhtä lailla regressioanalyysi voisi vahvistaa markkinointipäättäjien konservatiivista, vuosikausia jatkunutta vakiintunutta käytäntöä panostaa siihen, mihin "aina ennenkin on panostettu". Konkreettisena ja todellisena esimerkkinä huonekaluala, jossa huonekalujen vähittäiskauppiaat vuosikymmeniä satsasivat koko sivun tai aukeaman kokoisiin sanomalehtimainoksiin. Vaikka sanomalehtien tavoittavuus romahti ja ihmisten ostokäyttäytyminen oli siirtynyt osin nettiin, mitään ei muutettu, koska "aina ennenkin on luotettu sanomalehtimainontaan". Syöttämällä Exceliin markkinointipanostukset ja myyntiluvut vuorokausitasolla saataisiin kiistämättä vahva korrelaatio sanomalehti-ilmoittelun ja myynnin välille: lauantaisin jos on viikoittain sanomalehti-ilmoitus, juuri silloin kauppa täyttyy asiakkaista ja kuukauden myyntipiikit osuvat samoin aina lauantaille.

Businessanalytiikan avulla pitää kuitenkin osata haastaa myös konservatiiviset toimintamallit ja "aina ennenkin on tehty näin" -logiikka. Olennainen kysymys esimerkin tapauksessa on tietenkin se, että mitä tapahtuu, jos yhtenä lauantaina sanomalehti-ilmoitusta ei olekaan? Entä jos sama panostus käytetäänkin torstaina tai perjantaina? Entä jos sama panostus käytetään muihin kanaviin? Vasta kun analysiin saadaan riittävän monta havaintoa erilaisista kombinaatioista, voidaan tehdä luotettavia päätelmiä siitä, mikä on aidosti eri kanavien rooli ja yhteys myymäläkävijöihin, saittikävijöihin asiakkaan web-sivuilla ja ennen muuta myyntilukuihin. Jos mitään variaatiota toimenpiteissä ei ole, syy-seuraus-suhteet ovat mutun varassa. A/B-testaamista tarvitaan siis muuallakin kuin verkkokaupassa!

Eri selittävien muuttujien lisääminen analyysiin, uusien selittävien asioiden löytäminen, ja lukujen tulkinnat eivät tule mistään matemaattisesta kaavasta, vaan nämä juuri ovat analyytikon ammattiosaamista. Kuten mikä tahansa analytiikka, pelkät numerot ja tilastot eivät johda mihinkään. Väärin tulkittuna tilastot voivat myös johtaa vääränlaisiin päätelmiin. Esimerkin tapauksessa analyysissä pitäisi huomioida kunkin viikonpäivän keskimyynti silloin, kun mainospanostuksia ei ole - ja laskea ilmoittelun tuoma lisämyynti vasta tämän ylittävältä osalta. Lauantaina kun tyypillisesti hoidetaan huonekaluostokset silloinkin, kun mitään kampanjaa ei ole.

Parhaimmillaan analytiikka alan ammattilaisen tulkitsemana on kuitenkin loistava työkalu johtaa liiketoimintaa, karsia liian kallista tai tehotonta toimintaa tai panostuksia, ja siirtää panostuksia kustannustehokkaampiin kanaviin.

Mainostoimistoissa työskentelevät jaksavat myös lakkaamatta muistuttaa luovan ratkaisun avainroolista - ja he ovat tässä aivan oikeassa. Tämänkin osalta A/B-testaus olisi äärimmäisen tärkeää, sillä sama viestikärki ei aina tehoakaan kaikkiin ihmisiin, ja osaa asiakkaista voisi puhutella eri viesti. Esimerkiksi ohjelmallinen ostaminen tarjoaa nykyisin loistavat työkalut analysoida ja optimoida lukuisia eri muuttujia: eri tuotteet, eri luovat ratkaisut, eri kohderyhmät, eri kanavat - kaikkien yhteys eri tavoitteisiin (mainosklikki, sivustovierailu, konversiopiste sivustolla, ostotapahtuma) voidaan mitata ja analysoida. On aivan takuuvarmaa, että analysoimalla tuloksia ja optimoimalla kampanjoita tulosten mukaisesti saavutetaan todella merkittäviä kustannustehokkuuden kasvuja. Mikään ei ole kalliimpaa kuin jättää mittaus ja analyysi tekemättä, ja luottamalla "näin on ennenkin tehty" -mutuun!

Analytiikka on jatkuvasti yhä keskeisemmässä roolissa markkinoinnissa, ja analytiikan käyttö lisääntyy nopeasti. Ekonometriasta on Aalto-yliopistossa nykyisin oma kurssinsa. Hyvä niin, sillä alan osaajat ovat vielä harvassa!

- Ismo Tenkanen