Previous month:
marraskuu 2019
Next month:
huhtikuu 2020

helmikuu 2020

Miksi evästeestä tehtiin kävijäseurannan syntipukki?

Kirjoitin muutama päivä sitten blogin otsikolla "Analytiikka jatkuu vaikka evästeet kiellettäisiin kokonaan". Aihe tuntuu jonkin verran kiinnostavan, sillä blogilla on nyt ollut yli 1000 lukijaa ja Facebookin Markkinointikollektiivissa sille kertyi parissa päivässä yli 50 tykkääjää.

Ilmeisesti aihe koettiin tärkeäksi, ja monelle näyttää tulleen täysin uutena asiana se, että evästeet eivät itse asiassa kerää käyttäjistä mitään dataa. Ne ainoastaan antavat selaimelle "numerolapun", eli numero/kirjainmerkkijonon, kuten 4IzrDFqcshaOmMOtb2W3Zfx7, joka on esimerkki todellisesta evästeestä.

Eväste on siis tunniste, jonka perusteella palvelin voi tunnistaa, onko kävijä vieraillut palvelussa aiemmin, ja jos on, voidaan yhdistää käyttäjään sivuston palvelimelle tallennettuja käyttäjätietoja, jotka on saatu ihan muulla tiedonkeruuteknologialla kuin evästeillä. Esimerkiksi palvelin kaivaa tietokannoistaan esille nimesi, jolla vaikkapa Amazon tervehtii Sinua etusivullaan. Ei sitä nimitietoa ole evästeessä, mutta evästeen avulla Amazon tietää, että juuri Sinä olet palannut palveluun, ja kaivaa tietokannoistaan nimesi ja ostohistoriasi, joiden perusteella personoi etusivunsa juuri Sinulle.

Vielä vähemmän voitaisiin väittää, että se eväste on kerännyt tietosi nimestäsi. Kyllä Sinä olet sen ihan itse antanut Amazonin tietokantoihin, kun olet kirjautunut palvelun käyttäjäksi. Ja ei, Amazon ei todellakaan tallenna nimitietoasi evästeeseen. Mutta kun olet saanut Amazonista evästeen, sen "numerolapun", niin tämän numerolapun avulla Amazon kaivaa aiemmin palvelimelle antamasi nimitiedon, kun palaat palveluun.

Mistä johtuu, että väitetään, että "evästeet keräävät tietoa"?

Jos kerran eväste ei kerää yhtään mitään tietoa, vaan on pelkkä numerolappu selaimelle, niin miksi kaikkialla väitetään, että "evästeet keräävät Sinusta tietoa" tai "vakoilevat" tai "seuraavat" käyttäytymistäsi? Tietenkin juuri siitä syystä, että evästeet ovat tänä päivänä se tunnistetieto, jonka avulla palvelimet yhdistävät tietokannoistaan niitä tietoja, joita palvelimet ovat Sinusta keränneet. Olet itse antanut nimesi ja osoitteesi Amazonille palveluun kirjautumisen yhteydessä, ja Amazon on tallentanut tietokantoihinsa ostohistoriasi, sekä mistä asioista olet kiinnostunut. Kaikki nämä tiedot tietenkin säilyvät Amazonin tietokannoissa, vaikka kuinka tuhoaisit evästeesi!

Web-analytiikka tallentaa kävijälokitietoa, jota selaimet välittävät palvelimille eli servereille, joita kutsut, aina kun kirjoitat selaimeesi URL:in eli Web-osoitteen, jonne haluat selaimellasi siirtyä, tai kun klikkaat linkkiä, joka johtaa haluamallesi sivustolle. Kaikki tämä lokitieto kerätään niiden kutsujen yhteydessä, joita teet, kun selaimellasi kutsut eri sivustoja. Vaikka estäisit kaikki evästeet, joita palvelimet lähettävät selaimellesi, kutsusi on jo mennyt palvelimelle, jolla ylläpidetään sivustoa, jota kutsuit. Ja kun selaimesi avaa sivun, avautuvan sivun lähdekoodissa on usein myös kutsu 3. osapuolen mittauspalvelimelle, kuten Google Analyticsille, ja samat palvelinkutsun tiedot välittyvät kutsustasi myös Googlelle. Voit estää Googlen evästeet, mutta se ei estä sitä, että palvelin on jo kutsunut Googlen mittauspalvelinta, ja Google on jo saanut lokitietosi. Voit jopa estää kaiken liikenteen Googlen palvelimille. Sekään ei estä sitä, että kutsut eri sivustoille lähettävät lokitietosi väistämättä kaikille niille palvelimille, jotka ylläpitävät kutsumiasi sivustoja.

Et voi estää lokitietojen tallennusta palvelimelle, joita kutsut selaimellasi

Liki kaikissa tietosuojalausekkeissa, joita yritykset lakimiehineen ovat naputelleet sivuilleen voimassaolevan lainsäädännön vaatimuksesta, väitetään, että "evästeiden avulla keräämme" tietoa kävijöistä tai että "evästeiden avulla tallennetaan" tai "evästeisiin tallennetaan" näitä tietoja. Ei kerätä, eikä tallenneta. Evästeisiin ei tallenneta näitä tietoja, ja estämällä evästeet et millään tavalla estä tätä lokitietojen lähettämistä ja tallentamista. Vaikka estäisit kaikki mahdolliset evästeet, niin 1. osapuolen kuin 3. osapuolen evästeet kategorisesti, niin edelleen lähetät kutsuja eri palvelimille aina kun selaimellasi pyydät eri verkkopalvelujen sivuja omalle päätelaitteellesi. Ilman IP-osoitetta et koskaan voisi saada noita tietoja takaisin omalle päätelaitteellesi, sillä vain siitä IP-numerostasi tiedetetään, kenelle kutsuttu sivu tiedostoineen tulee lähettää!

Sekä eväste että IP-osoite ovat tunnistetietoja, ja molempia niistä pidetään nykyisin "henkilötietoina" lainsäädännössä. Näin siitäkin huolimatta, että kummankaan avulla yksin ei voida yksilöidä henkilöä, joka on saanut yksittäisen evästeen tai IP-osoitteen päätelaitteelleen. Sekä evästeet että IP-osoitteet voivat vaihtua moneen kertaan päivässä, eikä yksittäisestä evästeestä tai IP-numerosta voida aukotta tunnistaa käyttäjää; ei edes Internet-operaattori, jonka pitää laskutussyistä tietää, kenelle mikäkin dynaamisesti vaihtuva IP-osoite kuuluu milläkin hetkellä. Käytännössä kuitenkin esim. kotitaloudessa tai yrityksessä saman IP-osoitteen takana voi olla lukuisia eri ihmisiä, jotka käyttävät samaa IP-osoitetta. Evästeet auttavat nimenomaan tunnistamaan eri päätelaitteita (selaimia) samankin IP-osoitteen takana, mutta pelkästä evästetiedosta on mahdoton päätellä, kenelle se on lähetetty. Mutta tietenkin esimerkiksi Amazon tai muu verkkokauppa, jolle olemme antaneet yhteystietomme, pystyy tarkistamaan ja yhdistämään evästeet ja tietokantansa tiedoista niin nimemme, kuin muut henkilötietomme - ja siksi juridisesti IP-osoite ja eväste ovat tänä päivänä henkilötietoja.

Tiedonkeruu ja evästeet kaksi täysin eri asiaa

Edellä kuvatun mukaisesti evästeisiin voidaan yhdistää monenlaista henkilötietoa ja kiinnostustietoa yksittäisistä ihmisistä. Siksi tietosuojalausekkeisiin ja yleiseen kielenkäyttöön nämä asiat on yhdistetty, ja puhutaan siitä, kuin evästeet "keräisivät" dataa ja niihin "tallennettaisiin" tietoja, vaikka evästeet, tiedonkeruu ja tietokannat ovat täysin erillisiä asioita. Eväste on yksi tunnistetieto siinä missä IP-osoitekin. En ole vielä koskaan lukenut yhtään tietosuojalauseketta tai blogia, jossa olisi kerrottu, miten IP-osoitteiden avulla kerätään ja niihin tallennetaan tietoja käyttäjistä, mutta jostain syystä evästeistä on tehty kaiken Internetissä tapahtuvan tietojen keruun ja tallentamisen synonyymi, vaikka se on pelkkä harmiton merkkijono numeroita ja/tai kirjaimia.

Miksi olisi kaikesta huolimatta tärkeää ymmärtää tiedonkeruun ja evästeiden tai muiden tunnistetietojen ero? Juuri siitä syystä, että nyt jopa lainlaatijat ja viranomaiset - politiikoista puhumattakaan - ovat ryhtyneet tarmolla määräämään, kuinka evästeet tulisi kieltää ja miten evästeet uhkaavat yksityisyyttämme. Evästeet kieltämällä emme kuitenkaan voi millään tavalla estää sitä, miten yritykset edelleen keräävät dataa palvelimilleen omista käyttäjistään, ja miten me kuluttajat ja Internet-käyttäjät itse annamme eri sivustoille itsestämme tietoja. Kuinka helposti annammekaan itsestämme vaikka mitä tietoja, jos vaikkapa mainoksessa luvataan palkintokisa, jossa arvotaan voittajien kesken yksi sadan euron lahjakortti. Tai miten moni onkaan antanut luottokorttitietonsa sivustolle, jossa luvataan yhdellä eurolla uusi matkapuhelin, tai lähettänyt rahaa huijarille, joka on juuri lähettämässä meille miljoonia dollareita, kunhan vain maksamme pienen toimituskulun.

Älä ole siis itse hölmöläinen. Älä usko siihen, että evästeet kieltämällä, tai evästeet estämällä tiedonkeruu verkossa loppuu. Evästeet eivät ole tähänkään asti keränneet meistä yhtään henkilötietoa - olet itse niitä luovuttanut.

Evästeistä on tehty verkon tiedonkeruuseen syntipukki, ja nyt esitetään naiiveja ratkaisuja, miten verkon tiedonkeruun yksityisyysongelmista päästään, kun kielletään evästeet, tai estetään evästeet selainten asetuksin, tai siirtymällä selaimiin, jotka jo tänä päivänä estävät 3. osapuolen evästeet. Mikään näistä ei estä verkossa tapahtuvaa tiedonkeruuta, koska ne evästeet eivät ole tiedonkeruun lähde.

- Ismo Tenkanen

 

 

 

 


Analytiikka jatkuu vaikka evästeet kiellettäisiin kokonaan

Google ilmoitti estävänsä kahden vuoden päästä 3. osapuolen evästeet omasta Chrome-selaimestaan. Aiemmin saman päätöksen olivat jo tehneet Mozilla ja Safari, jotka ovat jo siirtyneet tähän käytäntöön, eli estävät aktiivisesti 3. osapuolen cookiet.

Näyttää siltä, että paitsi medioissa, jopa mediatoimistoissa ja digitoimistoissa ei ymmärretä todellisuudessa, mikä on eväste, koska nyt on luotu hysteriaa markkinointiväen keskuudessa kertomalla, miten evästeiden blokkaaminen mm. lopettaa selainpohjaisen web-analytiikan ja mainosmittaamisen kokonaan. Koska Google itse on yksi suurimmista mainosmittauksen tarjoajista, voitte olla kuitenkin varmoja, että mainosmittaaminen ei pääty, vaan 3. osapuolen evästeet korvataan muulla teknologialla. Vielä suurempi valhe on väittää, että analytiikka estyisi 3. osapuolen evästeiden myötä. Analytiikka jatkuu liki normaalisti, vaikka evästeet kiellettäisiin kokonaan.

Eväste ei kerää mitään dataa, ei edes ip-osoitetta

Yleinen harhaväite, joka toistuu jopa Suomen suurimman mediatoimiston eväste-artikkelissa, on, että "eväste kerää ihmisistä tietoa, kuten IP-osoite, käytetyt sivut ja mistä osoitteesta käyttäjä on tullut", josta datasta sitten kootaan mm. analytiikkaraportit. Eväste on kuitenkin passiivinen merkkijono, joka sisältää numeroita ja kirjaimia, ja evästeet tallennetaan käyttäjän omalle kiintolevylle. Koska se ei ole siis mikään ohjelma, miten se voisi aktiivisesti kerätä yhtään mitään? Käytännössä eväste on "numerolappu", joka annetaan selaimelle, ja tämän "numerolapun" eli tunnistetiedon perusteella sama selain tunnistetaan, kun se palaa uudelleen palveluun.

1. osapuolen evästeen osalta tunnistetaan kävijä, kun hän palaa verkkopalveluun, joka alun perin myönsi evästeen. 3. osapuolen evästeen osalta kävijä voidaan tunnistaa myös 3. osapuolen verkkopalvelussa, esim. mediassa, jossa tämä vierailee, vaikkapa Facebookissa, jolloin voidaan kohdentaa kävijään esimerkiksi niiden verkkokauppojen retargeting-mainos, joiden sivuilla kävijä on aiemmin vieraillut. 3. osapuolen eväste siten mahdollistaa kävijöiden tunnistamisen evästetunnisteen avulla myös eri verkkopalveluiden välillä, eikä pelkästään siinä sivustossa, joka myönsi evästeen.

Entä mitä sitten tapahtuu, jos 3. osapuolen eväste estetään? Silloin kävijää ei tunnisteta enää 3. osapuolen verkkopalvelussa, eikä häneen voida kohdistaa mainontaa sen perusteella, että hän on aiemmin käynyt jollain sivustolla, jonka kävijöille halutaan kohdentaa retargeting-mainontaa. Myös esim. sellainen kohdentaminen, jossa mainoksia kohdennetaan jostain tuotteesta tai palvelusta kiinnostuneille heidän aiemman verkkokäyttäytymisen perusteella, esim. matkailumainoksia matkailusivustoila käyneille, automainoksia autosivustoilla käyneille, tai koiranruokamainoksia lemmikkieläinsivustoilla käyneille, päättyy, jollei keksitä uutta teknologiaa 3. osapuolen evästeitä korvaamaan.

Analytiikka kerää tietonsa lokidatasta - ei evästeillä!

Sen sijaan analytiikka ei pääty mihinkään, vaikka 3. osapuolen evästeet estetäänkin. Mistä muuten analytiikkaohjemistot saisivat tänä päivänä tietää, kuinka paljon kävijöitä on vaikkapa Mozilla- ja Safari-selaimilla - jos 3. osapuolen evästeiden blokkaaminen estäisi analytiikan? Ensinnäkin, Google Analytics ja johtavat analytiikkaohjelmistot toimivat 1. osapuolen evästeillä, lukuunottamatta display-mainosmittauksia, joita niihin voidaan liittää. Toiseksi, vaikka 1. osapuolen evästeetkin kiellettäisiin, analytiikka jatkuisi - koska ne evästeet eivät kerää yhtään mitään dataa - vaan tiedonkeruu rakentuu ihan muuhun kuin evästeisiin analytiikassa!

Google Analytics -koulutuksissa kyllä kerrotaan myös, että Google "kerää tietonsa evästeiden avulla", ja jos selain estää evästeet, kävijää ei lasketa mukaan analytiikkadataan. Tästä ilmeisesti johtuu yleinen harhaluulo siitä, että estämällä evästeet voidaan estää mittaaminen. Todellisuudessa lähes kaikki data, mitä analytiikassa kerätään, voidaan tallentaa ihan samalla tavoin, vaikka kaikki evästeet kiellettäisiin huomenna.

Selainpohjaisen mittauksen tiedonkeruu rakentuu siis johonkin ihan muuhun kuin evästeisiin. Niiden tiedonkeräys pohjautuu samaan ideaan, kuin millä perinteinen serverilokidatan tallennus. Eli kun selaimella lähetetään kutsu (request) avata jokin URL eli web-osoite, vaikkapa www.econometrics.fi, niin Econometics.fi:n palvelimille eli servereille lähtee kutsu, jonka mukana kulkee IP-osoite, kutsutun sivun URL (esim. etusivu tai muu sivu), ajankohta sekunnin tarkkuudella milloin sivua on kutsuttu, sekä teknistä tietoa selaimesta, joka lähetti kutsun.

Lisäksi on mahdollista tallentaa sivu, josta kävijä on siirtynyt linkkiä pitkin, eli ns. referral-tieto, eli millä sivulla ollutta linkkiä oli klikattu, jos tultiin linkin kautta. Ja tietenkin: jos tämä linkki oli ollut hakukone, voitiin aiemmin nähdä koko se rimpsu, mikä tuli linkin mukana, ml. avainsana, jolla oli etsitty palvelua Googlesta tai muusta hakukoneesta. Sittemminhän Google esti tuon datan välittämisen 3. osapuolelle, mukamas privacy-syistä, mutta todellisuudessa Google jakaa samaa tietoa edelleen ilman mitään privacy-huolia kaikille ilmaiseksi Google Search Consolen kautta, eli Google halusi ainoastaan estää tämän tiedon jakamisen kilpailevien analytiikkaohjelmistojen osalta! Google Analyticsiin avainsanatiedot saadaan edelleen, kunhan vain aktivoidaan Google Search Console -data osaksi Google Analyticsia.

Kaikki nämä tiedot ovat tietenkin se datalähde, josta analytiikka ja serverilokidata koostuu, ja josta ne muodostavat raporttinsa sivuston kävijöistä. Edelleen yhä tänä päivänä jokainen, jolla on verkkosivusto netissä, voi mennä oman palveluntarjoajansa (ISP) sivustolle, kirjautua omiin tietoihinsa - ja lukea lokitilastot, josta ko. tiedot ilmenevät, vaikka ei olisi koskaan aktivoinut Google Analyticsia tai mitään muuta analytiikkaohjelmistoa!

Lokidata

Yllä kuvassa serverilokidataa helmikuulta 2020 - kaikki data on kerätty ilman ensimmäistäkään evästettä...

Mitä haittaa evästeiden täydellinen poistuminen aiheuttaisi analytiikkaan?

Kaikki selainpohjaiset mittaukset, kuten Google Analytics, Adobe Analytics tai Nielsenin SiteCensus, perustuvat lokidatan keruuseen siten, että mitattaville sivuille sijoitetaan pieni koodinpätkä, joka lähettää käyttäjän kutsut lokitietoineen myös mittauspalvelimelle, aina kun mitattava sivu avautuu käyttäjän selaimelle. Vaikka 3. osapuolen evästeet olisi estetty, tämä data lähtee mittauspalvelimille. Siten myös Google Analytics tai mikä tahansa analytiikkaohjelmisto saa lokidatat aivan normaalisti, vaikka GA ei ottaisi raporttiinsa mukaan niitä, jotka ovat estäneet evästeen.

Itse asiassa jo 15 vuotta sitten, kun Suomessa pohditiin ongelmaa, jossa tietoturvaohjelmistot blokkasivat mittausjärjestelmien evästeitä, ratkaistiin tämä ongelma, miten voidaan edelleen mitata kävijöitä, joiden evästeet on blokattu jollain ohjelmistolla, kuten F-Securen softalla. Idea oli yksinkertainen: koska kaikista selaimista saatiin edelleen lokidata normaalisti, ja siten sivulataukset kaikilta selaimilta, niin laskettiin saavutetut sivupyynnöt selaimilta, jotka vastaanottivat evästeet, ja vastaavasti sivupyynnöt selaimilta, jotka estivät evästeet. Jos evästeen vastaanottaneet olivat ladanneet keskimäärin 5 sivua per selain ko. verkkopalvelusta, ja sen lisäksi oli saatu 1000 sivulatausta selaimilta, jotka estivät evästeet, laskettiin 1000/5 = 200 selainta, jotka olivat estäneet evästeet. Tämä estimaatti vain sitten lisättiin kävijälukuun, joka oli mitattu niiden osalta, joilta evästetieto saatiin normaalisti, eli eivät olleet estäneet mittauspalvelimen evästettä.

Tästä voidaan siis suoraan tehdä se johtopäätös, että jos evästeet kokonaan poistuisivat käytöstä, niin eri kävijöiden (tarkemmin siis eri selaimien) laskenta heikentyisi - koska se ei enää perustuisi evästeiden tunnistetietoihin, vaan se palautettaisiin laskemaan pelkkiä IP-osoitteita - kuten lokidataohjelmistot tekevät edelleen tänä päivänä!

Samoin tilastot, jotka tänä päivänä perustuvat evästeisiin, kuten "uudet ja paluukävijät" ja vierailutiheys palvelussa, joko poistuisivat käytöstä, tai niiden laskenta jouduttaisiin vaihtamaan IP-osoitteiden varaan, joka esim. yrityskäytössä niputtaisi ison joukon käyttäjiä yhden numeron taakse.

Mutta liki kaikki muu analytiikka jatkuisi ennallaan, vaikka myös 1. osapuolen evästeet poistettasiin. Mutta koska näillä näkymin 1. osapuolen evästeitä ei olla poistamassa käytöstä - ja koska Google Analytics ja muut vastaavat analytiikkaohjelmisto käyttävät 1. osapuolen evästeitä - juuri mikään ei tule muuttumaan analytiikassa. Business as usual.

Olisiko nyt vain aika lopettaa medioissa ja blogeissa nämä höpöhöpö-jutut siitä, että "evästeet keräävät dataa käyttäjistä". Evästeet "numeroivat" selaimia, jotta ne voitaisiin tunnistaa ja laskea "eri kävijöiden" määriä, mutta eivät evästeet kerää mitään lokidataa - lokitiedot lähtevät joka tapauksessa jokaisen sivukutsun yhteydessä - koska niin Internet toimii! Mistä muuten voitaisiin tietää, kuka kutsun on lähettänyt, ja palauttaa pyydetyt sivut kutsujalle, jos estettäisiin tiedot siitä, kuka kutsun on lähettänyt? IP-numerotieto tulee siis jo pelkän kutsun yhteydessä - evästeellä ei ole mitään tekemistä asian kanssa...

- Ismo Tenkanen