-

Toename in Spam! Nieuw doelwit: Google Analytics

Spam heeft een nieuw kanaal gevonden en maakt daardoor alle websitedata onbetrouwbaar. Met name voor de online marketeer die regelmatig Google Analytics gebruikt om de prestaties van zijn website te analyseren. Waar spam in het verleden voornamelijk via de telefoon, post en e-mail binnen kwam, heeft het zijn weg gevonden via de verwijzende domeinen binnen het Webanalytics programma van Google.

Deze vorm van ‘online marketing’ neemt inmiddels serieuze vormen aan. Een steeds significanter deel van websitebezoeken bestaat uit spam.

Deze spam wordt ook wel referral spam of ghost referrals genoemd en maakt de data uit Google Analytics onbetrouwbaar. Analyses van KPI’s zoals het aantal sessies, gebruikers en het bounce percentage zijn onbruikbaar. De prachtige lijn met een stijgend aantal bezoekers deze maand is ineens nutteloos.

Het aantal bedrijven dat zich op deze manier profileert neemt toe. Waar het eerst Semalt.com was dat via deze weg zijn SEO Tool aan de man probeerde te brengen, zijn het nu de makers van onder anderen social sharing buttons die de data onbruikbaar maken. Ook andere SEO bedrijven, de erotische industrie en e-commerce gigant Ali-Express zijn volop bezig om dit marketingkanaal te benutten.

Referral Spam: de cijfers

Het valt in eerst instantie niet op maar de hoeveelheid spam begint significante vormen aan te nemen. Op basis van elf websites en een totaal van bijna 400.000 sessies en 280.000 gebruikers zien we dat 2.7 procent van het aantal sessies en 3.5 procent van het aantal gebruikers afkomstig is van referral spam. De meest voorkomende bronnen in de eerste helft van dit jaar waren:

  • www1.social-buttons.com
  • buttons-for-website.com
  • best-seo-offer.com
  • sanjosestartups.com
  • buttons-for-your-website.com

Klik hier voor een volledige lijst met waargenomen referral spam.

Hoe werkt Referral Spam?

Dat het mogelijk is om een willekeurig webadres achter te laten in de gegevens van Google Analytics heeft te maken met hoe een page view wordt gemeten. Een page view wordt gemeten op het moment dat een pagina wordt geladen in een browser. De Google Analytics tracking code die op je website staat zorgt er voor dat er een signaal wordt gestuurd naar Google Analytics die dit paginabezoek registreert. De data die mee wordt gestuurd zie je hieronder:

Schermafbeelding 2015-09-01 om 12.17.58

Duidelijk is dat er maar een klein aantal query parameters nodig is om een page view te registreren. Referral spam maakt hier gebruik van. Er is in dit rijtje namelijk maar één unieke waarde nodig en dat is de property ID van Google Analytics. Deze code is publiekelijk toegankelijk en staat in iedere tracking code. 

Schermafbeelding 2015-09-01 om 12.18.41
Kortom, bedrijven die misbruik willen maken van deze mogelijkheid hebben alleen de property ID nodig om een signaal te sturen naar Google Analytics. De rest van de
query parameters kunnen ze zelf invullen. Deze Property ID kan op twee manieren worden ‘gegenereerd:

  1. Crawlen – hierbij is er een bot dat het web crawlt en op die manier property ID’s die het tegenkomt verzamelt, bundelt en vervolgens target.
  2. Random – een andere manier (die veel logischer is), is gebruik te maken van een een random (oplopend) getal dat willekeurig alle property ID’s target. De kans dat er een ID tussenzit waar daadwerkelijk een account aan vast zit is hoog. Dit verklaard overigens dat websites die niet ‘live’ staan, of op no-follow no-index staan maar wel gebruik maken van Google Analytics, toch last hebben referral spam.
Wil je het zelf een keer proberen? Klik dan hier en vul als extra parameter “dr” in met daarbij een willekeurige website.

De oplossing

Gelukkig bestaat er een oplossing voor dit probleem. Waar de Nee Nee sticker helpt bij de voordeur van je woning, en het Bel me niet register voor je telefoon, zo kan je met Google Analytics referral spam uitsluiten. Er zijn verschillende methoden om dit te doen. Houdt er rekening mee dat je de onderstaande oplossingen altijd eerst uitvoert in een test-omgeving, daarna pas in je werk-omgeving.

Bots passief filteren

Google Analytics biedt een passieve manier om bots te filteren uit je Google Analytics account. Deze is helaas niet effectief en zorgt er voor dat een groot deel van de referral spam alsnog zijn weg vindt naar de data.

Deze filter instellen doe je als volgt:

  1. Open Google Analytics
  2. Onder WEERGAVE klik op Instellingen weergeven
  3. passieve filterVink het hokje onder Bots Filteren

  4. Klik op Opslaan
Bots actief filteren d.m.v. reguliere expressie

Een tweede effectievere manier is het actief filteren van referral spam met behulp van reguliere expressies. Hier zitten echter wel beperkingen aan:

  • 255 Karakters

Een filter kan niet meer dan 255 karakters bevatten. Dit betekent, aangezien er ruim 120 bronnen bekend zijn, dat er meer dan tien filters gecreëerd moeten worden om alle referral spam uit te sluiten.

  • Spaties

Reguliere expressies zijn fout gevoelig. een klein foutje kan al betekenen dat er helemaal geen data meer wordt gemeten. Zorg er dus voor, bij het opstellen van je reguliere expressie, dat je geen spaties gebruikt. Daar hebben RegEx een hekel aan.

  • De verticale bar

Ditzelfde geldt voor de verticale bar ( | ). Zorg er voor dat deze nooit aan het einde staat van je Regex.

Ga als volgt te werk:

  1. Open Google Analytics
  2. Open onder ACCOUNT: Alle Filters
  3. Creëer een nieuwe filter
  4. Vul alle velden in:

Filternaam: referral spam 1

Filterype: Aangepast

Filterveld: Campagnebron

Filterpatroon:

4webmasters\.org|7makemoneyonline\.com|adcash\.com|adviceforum\.info|amanda-porn\.ga|baixar-musicas-gratis\.com|best-seo-offer\.com|best-seo-solution\.com|bestwebsitesawards\.com|blackhatworth\.com|buttons-for-website\.com|buttons-for-your-website\.com

5. Filter toepassen op weergaven:

Klik de weergave aan waarop je de filter wilt toepassen en klik op Toevoegen. Let op: pas de filter altijd eerst toe op de test-omgeving! Daarna pas op de werk-omgeving.

Filter6. Opslaan

Segmenteren

Je kan ook referral spam filteren door middel van een segment. Een segment heeft als voordeel dat het ook data uit het verleden filtert. Een ander voordeel is dat er bij segmenten geen restricties zijn als het gaat om het aantal karakters van de reguliere expressie. Hierdoor kan je één grote RegEx maken waar alle referral spam in zit. Een nadeel van een segment is je altijd eerst een segment moet selecteren alvorens je de Data in Google Analytics goed kan bekijken. Ook wordt de referral spam niet actief verwijderd uit je account, maar blijft deze er in zitten.

Een andere manier om spambots uit te sluiten, die overigens geen garantie biedt, is door je property ID aan te passen. De meeste referral spam gebruiken een random nummer dat eindigt op de standaard -1 van Google Analytics. Zorg er dus voor dat jouw property ID eindigt op bijvoorbeeld -7 dan is er een reële kans dat je minder of zelfs geen referral spam binnen krijgt.

Conclusie

Referral spam is vervelend en vertroebelt je Google Analytics data. Gelukkig nog niet in die mate dat de data totaal niet meer bruikbaar is maar het begint wel steeds ergere vormen aan te nemen. Met een toenemend aantal bronnen is het een kwestie van tijd tot de data echt niet meer bruikbaar is. Het wachten is op een antwoord van Google. Het is tenslotte haar product dat langzaam maar zeker onbruikbaar wordt.

Deel dit bericht

7 Reacties

Nico

Dit speelt al ruim 2 jaar en sinds begin dit jaar komen er elke dag wel 10 artikelen online over dit onderwerp en de mogelijke oplossingen. Een beetje erg laat dus van Emerce om hier nu mee op de proppen te komen, zeker gezien Google nu zelf officieel heeft aangekondigd aan een oplossing te werken.
Daarnaast zijn genoemde oplossingen verre van perfect en al lang niet meer up-to-date.
Advies is laat je niet gek maken door elke dag je filters te updaten en wacht gewoon op google die het probleem wel oplost uiteindelijk.

Oscar Simons

Hi Nico,
Dank voor je reactie, zou jij het artikel kunnen delen waarin staat dat Google actie onderneemt?
Ben benieuwd!
Groet,
Oscar

Jaap

Deze oplossingen heb ik ook al verschillende keren gelezen en bieden geen oplossing. De beste staat er niet bij, namelijk een filter met het uitsluiten van de hostnaam die niet gelijk is aan je eigen webadres.

Alain

Jullie bericht viel meteen op in Google onder nieuws! Razend benieuwd naar de oplossing! Helaas werkt jullie oplossing niet, jammer heb best een hoge pet op van jullie portaal…

André

De beste oplossing is om serverside te gaan meten via het measurement protocol. Daarin geef je dan een draai aan je eigen hostname, dus niet emerce.nl maar echtmerce.nl. In GA kun je dan eenvoudig op die verzonnen hostname een include filter zetten 😉

Nadeel is dat deze serverside meting niet altijd even makkelijk te implementeren is.

Dominique

De beste methode die ik tot nu toe heb weten te vinden is de volgende op GitHub:
https://github.com/sahava/spam-filter-tool

Omdat zijn eigen versie vaak al over de daily requests heen is zal je deze even op een eigen lokale server moeten draaien (Doe ik overigens ook op: http://easy.nu/analyticsspam mocht je het willen testen)

Helaas blijven er toch sites doorheen komen en hoop ik dat Google snel met een antwoord komt!

Dennis

Hier heb je ondertussen bijna 450 domeinen (30+ filters) die je uit kunt sluiten: https://www.adwordsrobot.com/nl/tools/ga-referrer-spam-killer Ook geautomatiseerd. Dat scheelt zo veel werk als je meerdere domeinen wilt updaten.

Mogelijk erg handig 🙂

Plaats een reactie

Uw e-mailadres wordt niet op de site getoond