Suomen Yritystietopankin huijauslaskut rahastavat lomalaisia
Kannattaako omalla brändisanalla mainostaminen Googlessa?

Spam Google Analyticsia vastaan kasvaa - mitä tehdä?

Jokainen analyytikko on viime kuukausina saanut tuskailla sen kanssa, miten Google Analytics -dataan tulee jatkuvasti lisää haamuliikennettä, joka vinouttaa ikävällä tavalla tilastoja. Sota spammaajia vastaan on nyt loputon, ja jollei päivittäin niin viikoittain ilmaantuu uusia spammaajia, jotka pyrkivät saamaan oman sivustonsa yhä useamman asiakkaan Analytics-tilastoihin. Ideana lienee saada uteliaat klikkailemaan itsensä ko. sivustolle, ja sitä kautta spammaajille mainostuloja tai affiliate-tuloja evästeillä korvamerkityistä kävijöistä, joita spammin avulla haalitaan. Ehkä joku idiootti menee vielä tilaamaan jotain palveluita suoraan noilta sivuilta, joihin houkutellaan liikennettä.

Yleisimpiä viimeaikaisia spammaajia ovat olleet mm.

4webmasters.org
buttons-for-website.com
chinese-amezon.com
floating-share-buttons.com
free-floating-buttons.com
get-free-social-traffic.com
how-to-earn-quick-money.com
qualitymarketzone.com
seo-platform.com
site10.free-floating-buttons.com
success-seo.com
traffic2money.com
video--production.com

Pahimmillaan tämä ilmenee siten, että kaksi viikkoa sitten perustetun uuden Analytics-tilin liikenteestä aloittelevalla sivustolla jopa kolmasosa kaikesta liikenteestä on SPAM:ia, jollei haamuliikennettä jollain tavalla siivota tilastoista. Jokainen voi arvata, miten nämä spammaajat vinouttavat esim. liikenteen laatua kuvaavia keskilukuja, kun bounce rate on näissä tyypillisesti 100 %, vierailun kesto nolla sekuntia ja ladatut sivut per vierailu 1. Puhumattakaan siitä, miten spam-liikenne heikentää verkkokaupan konversioastetta, kun robotit harvemmin ostavat mitään... Näin ollen aloitteleva analyytikko tai satunnainen webmaster tekee hurjia virhepäätelmiä liikenteen määrästä ja ennen muuta laadusta, jos roskaliikennettä ei suodateta.

Taistelua tuulimyllyjä vastaan?

Tietokonefirmat ovat blogeissaan neuvoneet, miten spammit tulisi torjua htaccessin avulla, "jolla voit estää bottien pääsyn sivustollesi kokonaan." Tai rakentamalla estoja spammaajien ip-osoitteesta tuleville. Ikävä kyllä tällaiset estot eivät juurikaan tehoa spammaajiin. Miksi? Koska todellisuudessa suurin osa spamista tapahtuu suoraan Google Analyticsin mittauspalvelimille, joihin syötetään spamia, ja spam-liikenne kirjautuu sitten asiakkaan analytiikkadataan, vaikka siis tosiasiassa mitään liikennettä asiakkaan sivustolle ei ole ko. domainista tapahtunut.

Selvällä suomen kielellä siis spammajat eivät niinkään pommita Analytics-asiakkaiden palvelimia, vaan Googlea, jolloin asiakkaan oman sivuston estotoimenpiteet eivät vaikuta siihen, että Analytics-dataan ilmaantuu haamuliikennettä. Itse asiassa siis spammaajat eivät edes tiedä, mitä sivustoa pommittavat, vaan usein syöttävät satunnaisesti eri Analyticsin UA-tunnuksiin spammiaan.

Analyytiikko voi itse tarkastella helposti tilannetta omasta hosting- eli "verkkoaseman tunnus"-tilastostaan. Siellä ei siis kuuluisi olla mitään muuta kuin niitä domaineita, joihin asiakas on itse sijoittanut Google Analytics -koodinsa. Nyt kuitenkin spam-botit kutsuvat joko omaa domainiaan, tai itse keksimäänsä fake-domainiaan, jolloin hosting-tilastoon alkaa ilmaantua haamuliikennettä esim. tällaisista absurdeista domaineista:

(not set) (puuttuva tieto, siis spamia, kun ei ole kutsuttu mitään domainia)
www.kkfeklgnbfh.us
www.lkqoprsoj.com
www.luykhmzga.au
www.lzkrt.fr
www.ncsuhgm.it
www.niemnds.ru
www.ntsmq.eu
www.ofshe.net
www.opistwfwqor.co.uk
www.ovrcyupxgo.org
yms.

Ja niin edelleen, näitä voi olla loputtomasti, ja on helppo päätellä, että noihin domainehin pommitettu liikenne ei mitenkään kuulu mitattavan sivuston analytiikkadataan, koska ei ole lainkaan kutsuttu asiakkaan omia ja mittauksessa olevia domaneita! Google Analytics ohjaa datan asiakkaan raporttiin ainoastaan siksi, että spammaajan satunnaisesti valitsema UA-tilinumero kuuluu ko. asiakkaalle.

Asiaa on helppo tarkastella myös kanava- tai lähdelistauksista laittamalla toissijaiseksi mittasuhteeksi "verkkoaseman tunnus" eli hosting. Listalla saattaa olla varsin eksoottisia domaineita:

Referral_spam

 

Koska spammaajia ja heidän kutsumiaan domaineita ilmaantuu päivittäin lisää, on myös erittäin turhauttavaa yrittää koota kattavaa estolistaa spammajista ja hosting-osoitteista, jotka pitäisi sulkea datasta pois. Tämä on todellakin loputonta taistelua tuulimyllyjä vastaan. Mutta toisin päin asia on huomattavasti helpompaa: voidaan luoda Google Analytics-näkymä, johon filteroidaan liikenne vain niistä domaineista, jotka kuuluvatkin olla datassa. Näiden domainien määrä on varsin rajattu ja hallittu, ja listaa tulisi päivittää vain silloin, jos mittaukseen avataan uusia domaineita, tai otetaan mukaan esim. YouTube-kanavia jne.

Niinpä esimerkiksi oman zmg.fi-sivustomme osalta hyväksyttäviä Hosting-osoitteita olisivat:

zmg.fi
mediacontacts.fi
kotisivukone.fi
mediadashboard.info
googleusercontent.com

Kun luodaan näistä uusi näkymä, johon suodatetaan mukaan (include) ainoastaan liikenne, jossa hosting-kohteiksi hyväksytään vain ko. domainit, suodattuu silloin automaattisesti datasta jatkossa ne spammaajat, jotka eivät edes tiedä, mitä sivustoa spammaavat, jolloin hosting-osoitteessa on joko (not set) eli puuttuva tieto tai jokin spammaajan itse keksimä domain. Se voi toki olla myös jokin hyvin tunnettu domain, kuten google.com tai amazon.com, jolla spammaaja pyrkii hämäämään, että liikenne olisi todellista.

Kahdella suodattimella kaikesta spam-liikenteestä eroon

Web-analyytikko Carlos Escalera neuvoo SEO & Analytics made simple -sivustolla, miten vain kahdella suodattimella pääsee eroon kaikesta spam-liikenteestä Google Analytics-datassa. Toinen näistä suodattimista on edellä mainittu Valid Hostname -filtteri, jolla hyväksytään vain omia domaineita kutsuva liikenne Analytics-dataan.

Toinen suodatin onkin taas hankalampi, sillä sen tarkoituksena on suodattaa crawler spam, eli robotit, jotka todellakin kiertävät webissä sivustolta toiselle, eli oikeasti vierailevat asiakkaan palvelimilla, eivätkä ainoastaan pommita Googlen servereitä. Silloin hosting-nimi on siis todella asiakkaan oma domain, kuten kuuluu ollakin, mutta liikenne robottiliikennettä.

Suurin osa crawler boteista on täysin harmittomia, ja vain indeksoivat webin sivustoja, mutta tähänkin on kehitetty spam-versioita, jotka pyrkivät jättämään referrer- eli viitetietoihin jälkensä, ja houkuttelemaan sivustojen ylläpitäjiä vierailemaan Analyticsin listaamilla, robottikäyntien generoimilla viittaussivustoilla kuten:

floating-share-buttons.com
free-floating-buttons.com
get-free-social-traffic.com
hongfanji.com
qualitymarketzone.com
seo-platform.com
success-seo.com
traffic2money.com
video--production.com
www.event-tracking.com
www.Get-Free-Traffic-Now.com

Näiden osalta ei tietenkään voida toteuttaa mitään "Include"-suodatinta domaineista, jotka "hyväksytään" viitesivuiksi, koska viitesivulistauksen idea on nimenomaan kertoa sivuston ylläpidolle ja analyytikolle, ketkä linkittävät sivustoon ja ohjaavat siten linkkejä pitkin kävijöitä joltain toiselta sivustolta omalle sivustolle. Ainoa, mitä voidaan näiden osalta tehdä, on yrittää suodattaa viitelistaukseen ilmaantuvia spam-osoitteita.

Mutta sen sijaan, että vain itse yrittää näitä viikoittain tai kuukausittain poimia ja suodattaa, voi tietenkin käydä säännöllisesti esim. tuolta ohow.com -sivustolta poimimassa muiden analyytikkojen listauksia crawler-spammaajista, ja kopioida niitä omille estolistoilleen. Tiedän, jatkuvaa lisätyötä ja sotaa spammaajia vastaan.

Roskaliikenteen suodattaminen tärkeää

Olisi tietysti toivottavaa, että Google itse pyrkisi paremmin suodattamaan roskaliikennettä pois Google Analytics -datasta, mutta koska se ei ainakaan tällä hetkellä juurikaan sitä tee, ei auta kuin analyytikkojen tehdä suodatintyö. Joka tapauksessa Analytics-luvut ovat jo niin vinoutuneita pelkän raakadatan osalta, että missään tapauksessa ei voi suositella sitä, että tehdään mitään tulkintoja ja johtopäätöksiä sellaisen datan pohjalta, jossa on mukana jopa 10-30 % liikenteestä täyttä roskaa.

Satunnaiselle analytiikkalukujen katsojalle työ on kieltämättä epätoivoista ja turhauttavaa, mutta asiansa osaavien analyytikkojen puoleen kannattaa kääntyä, sillä he pystyvät suodattamaan roskaliikenteen datasta, ennen kuin alkavat suu vaahdossa intoilla kovasti kasvaneesta liikenteestä vaikkapa Kiinan Amazonista...

Ota yhteyttä ja kerromme lisää, sekä autamme siivoamaan analytiikkatilastot takaisin järkeviksi.

Ismo Tenkanen

 

Kommentit

Feed You can follow this conversation by subscribing to the comment feed for this post.

Verify your Comment

Kommentin esikatselu

This is only a preview. Your comment has not yet been posted.

Working...
Your comment could not be posted. Error type:
Your comment has been saved. Comments are moderated and will not appear until approved by the author. Post another comment

The letters and numbers you entered did not match the image. Please try again.

As a final step before posting your comment, enter the letters and numbers you see in the image below. This prevents automated programs from posting comments.

Having trouble reading this image? View an alternate.

Working...

Kommentoi

Comments are moderated, and will not appear until the author has approved them.

Your Information

(Name and email address are required. Email address will not be displayed with the comment.)