Hoe blokkeer je Analytics spam met tools?
Wie af en toe in Google Analytics kijkt, heeft het wel gezien – er zijn honderden bedrijven bezig met het vervuilen van Google Analytics statistieken. Analytics spam. Wat is het? Is het schadelijk? Wat kun je hier aan doen en hoe?
Zie jij de onderstaande domeinen in je verwijzingenverkeer? Dan hebben zij jou ook te pakken gehad.
- traffic2cash.xyz
- с.новым.годом.рф
- share-buttons.xyz
- snip.tw
- copyrightclaims.org
Wat is Analytics Spam?
Analytics spam zijn domeinen die in Analytics terecht zijn gekomen als verwijzingen die zogenaamd een bezoeker naar jouw website hebben gestuurd.
Als je 100 bezoekers per dag hebt, kan het lijken alsof deze website daadwerkelijk veel verkeer oplevert. Soms gaat het om 5-10 procent van al het verkeer. Maar dat verkeer is niet echt, het is Analytics spam!
In bijna alle gevallen is er helemaal geen bezoeker naar jouw website geweest. Het gaat om spamsoftware die een bezoeker simuleert (crawler spam) of jouw Analytics code gebruikt om Google Analytics te laten weten dat er een bezoeker op jouw site is geweest, terwijl dat niet het geval is (ghost spam). Deze laatste methode zorgt voor het meeste ‘verkeer’. De werking van Analytics spam wordt uitgelegd bij Analytics Toolkit.
Gelukkig is deze spam niet schadelijk. Het is voornamelijk vervelend omdat je statistieken vervuild raken. Gelukkig is er iets aan te doen.
Hoe groot is het probleem?
We hebben 292 Google Analytics accounts geanalyseerd zonder spamfilters met tenminste 25 bezoekers door verwijzingen per dag. Het totale aantal ‘verwijzingenspamverkeer’ was ongeveer 11 procent en ongeveer 57 procent van alle websites had spamverkeer vanuit tenminste één van de 500 spamdomeinen.
Nieuw verkeer schoonhouden met anti-spam tools
De meeste oplossingen die je helpen om je Analytics statistieken vrij van spam te houden vereisen een soort van (handmatig) filteren van spamdomeinen en meer algemene filters binnen Analytics.
Tegenwoordig zijn er ongeveer 550 domeinen die het spamprobleem veroorzaken (de meest recente lijst van spam domeinen kan worden gevonden op GitHub – deze is open source).
Vanwege het grote aantal spamdomeinen is het handmatig toepassen van filters zeer tijdrovend, en omdat er elke maand nieuwe spamdomeinen bijkomen, is het moeilijk om het bij te houden.
Om de groei van spam bij te houden, zijn er geautomatiseerde oplossingen gemaakt. Er zijn verschillende tools op de markt, waarvan de meeste gratis zijn.
Hieronder zal ik verschillende tools beschrijven.
Tools
Analytics Verwijzingen/Ghost Spam Blocker
Analytics Ghost Spam Blocker (gratis) van AdWords Robot. (disclaimer: dat is mijn bedrijf) Deze spam blocker is zeer up-to-date. Op het moment van schrijven bevat het meer dan 570 domeinen in hun zwarte lijst.
Informatie:
- Url: https://www.adwordsrobot.com/nl/tools/ga-referrer-spam-killer
- Soorten filters (3): hostname filter, schermresolutie filter, zwarte lijst filters.
- Prijs: Gratis! Deze tool is kosteloos te gebruiken.
Voordelen:
- Eenvoudige interface met zoekoptie (handig als je veel profielweergaves hebt).
- Kan meerdere accounts, properties en views tegelijk bijwerken.
- Toegevoegde filters ongedaan maken indien nodig.
- Zeer up-to-date met behulp van de gemeenschap (meer dan 570 domeinen op de zwarte lijst, 39 filters).
- Verhoogde quota limieten tot 10.000 aanvragen per dag.
Nadelen:
- Je moet de filters steeds bijwerken wanneer nieuwe domeinen worden gepubliceerd.
Analytics Toolkit
Analytics Toolkit (15 dollar per maand) van Analytics Toolkit. Deze spamtool is onderdeel van een breder pakket van Analytics tools.
Informatie:
- Url: https://www.Analytics-toolkit.com/auto-spam-filters/
- Soorten filters (1): filters voor domeinen op de zwarte lijst.
- Prijs: 15 dollar per maand (meerdere Analytics gerelateerde tools inbegrepen).
Voordelen:
- Filters worden automatisch bijgewerkt wanneer nieuwe domeinen worden gepubliceerd.
- Filters toepassen op alle accounts, properties en views.
- One click interface, set and forget.
- Quota limieten zijn geen probleem omdat filters op de achtergrond worden toegepast.
Nadelen:
- Registratie is noodzakelijk.
- Het aantal gefilterde domeinen is niet gepubliceerd (vijf filters zijn toegevoegd).
Spam Filter Installer
Spam Filter Installer (gratis & open source) van Simoa Hava is een van de eerste geautomatiseerde spamfilter tools. De gehele tool is open source en kan door iedereen worden gedownload en geïmplementeerd. Op deze manier heb je betere controle over quota limieten.
Informatie:
- Url: https://http://www.simoahava.com/spamfilter/
- Filter types (1): filters voor domeinen op de zwarte lijst
- Price: Gratis! Deze tool is kosteloos te gebruiken.
Voordelen:
- Open source code, je kunt zelf de tool implementeren.
- Meerder weergaven kunnen worden geselecteerd.
Nadelen:
- Kan alleen op één account tegelijk worden toegepast.
- Quota limiet van 2000 verzoeken per dag.
- Het aantal gefilterde domeinen is semi up-to-date (meer dan 400 domeinen, 26 filters).
Soorten filters
De meeste tools hierboven voegen één of meerdere van de volgende filters toe.
#1 Lege hostname uitsluiten
De meeste ghost spambots sturen het hostname veld niet door bij het sturen van nepdata naar Analytics.
Deze filter verwijdert alle verzoeken met een lege hostname.
#2 Lege schermresolutie uitsluiten
De meeste ghost spambots sturen de schermresolutie niet door bij het sturen van nepdata naar Analytics.
Deze filter verwijdert alle verzoeken met een lege schermresolutie.
#3 Alleen eigen hostnames opnemen
De meeste ghost spambots stellen de hostname niet in, maar sommige doen dit wel. In de meeste gevallen stellen zij de hostname in naar een spamdomein in plaats van het echte domein van de website.
Deze filter filtert alle verzoeken uit met een hostname die ingesteld is op iets anders dan de lijst met hostnames die wij ter beschikking hebben – onze domeinnaam.
Waarschuwing! Omdat dit een witte lijst filter is, filtert het alles uit behalve de lijst met namen die wij ter beschikking hebben. Dit heeft een keerzijde: als je je domein in de toekomst verandert of als je meerdere domeinen met hetzelfde Analytics account gebruikt (zoals voor elke taal TLD of met meerdere sub domeinen), dan zou het kunnen dat je ook het goede verkeer uitfiltert. Wees dus heel voorzichtig met dit filter anders zou je wellicht veel verkeer kunnen verliezen uit je Analytics.
Hoewel dit geweldig klinkt is deze filter zeker niet de beste oplossing; sommige spambots bezoeken je website ook, dus de hostname wordt ingesteld op de juiste hostname en zal niet worden uitgefilterd.
#4 Domeinen op de zwarte lijst uitsluiten (campaign source filter)
Indien de bovenstaande filters niet werken, moet je elk bekende spamdomein handmatig uitsluiten. Momenteel zijn er meer dan 550 bekende spamdomeinen in de open source spam lijst.
De meeste tools gebruiken een lijst met domeinen die automatisch worden toegevoegd.
Spam verwijderen van reeds vervuild verkeer
Met behulp van de hierboven beschreven methoden is het niet mogelijk om reeds vervuilde data op te schonen (in Google Analytics). Google Analytics ondersteunt segmenten die het mogelijk maken om oude gegevens te filteren, maar niet bij te werken.
Door onderstaand segment te gebruiken, kun je alle spamdomeinen verbergen uit oudere gegevens. Erg handig als je veel spam had in het verleden wat niet was gefilterd.
Installeer Analytics Spam Blocker (januari 2016, 550 domeinen) en je kunt het segment in elke view selecteren. Lees de hoe-segmenten-te-gebruiken gids van KissMetrics als je niet bekend bent met segmenten.
Andere (niet aanbevolen) oplossingen
Er bestaan een aantal andere oplossingen die gedeeltelijk zouden kunnen werken. De meesten zou ik niet aanraden omdat ze meer kapot maken dan dat ze repareren. De meesten werken niet beter dan de geautomatiseerde oplossingen van hierboven.
Aangepaste dimensies toevoegen aan elk bezoek (niet beter dan filters hierboven)
Een aangepaste dimensie aan elk bezoek toevoegen stelt je in staat een onderscheid te maken tussen ghost spam en echte bezoeken. Deze oplossing vereist toegang tot de Analytics code op de website.
Domeinen uitsluiten die .htaccess gebruiken (niet aanbevolen)
Verkeer uitsluiten op web server niveau pakt ghost spam niet aan. Je hebt ook een Apache web server nodig (of andere web server die compatibel is) met toegang tot de instellingen. Het updaten van deze regels kan de hele website omlaag halen, dus wees voorzichtig. Ook het controleren van meer dan 500 reguliere expressies bij elk bezoek gebruikt extra resources.
Extra parameters toevoegen aan de page view trigger (niet aanbevolen)
Om een extra parameter toe te voegen aan de page view request, heb je toegang tot je Analytics code op je website nodig. Daarmee spelen is niet aan te raden.
Een nieuwe tracker ID aanmaken (niet aanbevolen)
Een nieuwe Google Analytics tracker ID aanmaken is geen goed idee omdat je al je oude gegevens kwijtraakt. Bovendien zullen spambots je nieuwe account vinden en nieuwe spam aanmaken.
IP adressen uitfilteren (niet aanbevolen)
IP’s uitfilteren zal niet veel helpen omdat bots verschillende IP’s gebruiken. IP’s van ghost spambots kunnen zelfs onbekend zijn, omdat ze je website nooit bezoeken.
Ter afsluiting
Analytics spamverkeer is nog steeds een probleem, maar er bestaan geautomatiseerde oplossingen die kunnen helpen. Deze werken goed en zijn gemakkelijk te gebruiken. Er is ook volop keuze.
Wat nog mist is een tool die alle varianten van filters combineert en geautomatiseerd toegepast kan worden. Dat is vooral bij een eigen hostname white list (filter #3) lastig, omdat het vaak niet bekend is wat de echte domeinnamen zijn, zeker als er meerdere zijn.
Google heeft een spam verkeer support pagina aangemaakt, dat betekent dat ze het probleem erkennen en wellicht met een oplossing komen. Adam Singer van Google Analytics heeft bevestigd dat Google probeert met een fix te komen, maar de release datum is nog niet bekend.
Nieuwe spam domeinen gevonden? Geef ze door aan de community blacklist op GitHub. Andere tips & tricks zijn van harte welkom in de reacties.
Deel dit bericht
Plaats een reactie
Uw e-mailadres wordt niet op de site getoond
5 Reacties
bert
Soms wil je dat IP nummers gewoon een logische landenstructuur hebben. Waarom IP6 niet zo is ingestoken is een raadsel. Was Rusland bijvoorbeeld 46.x.x.x.x.x geweest, blok je dat op je server en klaar.
Nu is beste oplossing gewoon geen analytics gebruiken. Wordt er toch alleen maar moe van, net als een Toon, kWh meter voor je zonnepanelen, stappenteller etc. Meten is ongelijk aan weten. Meten = stress.
Nico Oud
Handige tips! Analytics spam is echt een doorn in het oog! Ik hoop dat dit soort tools zich blijven ontwikkelen.
Dennis
Je kunt gemakkelijk bij dit soort spam gebruikmaken van proxies, waardoor IPs niet per se uit het land van de boosdoeners komen.
Jeroen
Je kan als alternatief ook een dataset maken met alleen het verkeer uit het gebied waar jouw bedrijf de focus op heeft. Veel lokale of regionale bedrijven heb niet veel aan de gegevens van buitenlandse bezoekers (of zelfs buiten de directe regio).
Bijna al het SPAM verkeer komt van buiten Nederland, meteen opgelost.
Maak wel een 2de dataset, dan hou je altijd toegang tot alle cijfers.
Ramon
Dit is nu – eindelijk! – opgelost! Google plaatst spamfilter in Analytics. Lees meer op: http://ramondelafuente.com/2016/03/14/google-analytics-referral-spam-verwijderen/