-

In sneltreinvaart pagina’s verwijderen uit Google: een stappenplan

Met elke pagina wil je presteren. Hetzij voor bezoekers en/of zichtbaarheid in de organische zoekresultaten. In sommige gevallen wil je het tegengestelde en juist url’s verwijderen uit de organische zoekresultaten van bijvoorbeeld Google.

Pagina’s die het geheel van je website meer kwaad dan goed doen wil je snel uit Google zien verdwijnen. Hierdoor kunnen bezoekers aandacht besteden aan wat belangrijk is, en zorg je dat het crawl-budget efficiënt besteed wordt aan url’s die er echt toe doen. Wat de situatie ook is, voor de volgende scenario’s geef ik een beschrijving met stappen om pagina’s snel uit Google te zien verdwijnen.

  1. Pagina’s met weinig of gedupliceerde inhoud oplossen.
  2. Geïndexeerde inhoud met gecachte versie verwijderen.
  3. Pagina’s uit migraties of ontwikkelingsomgeving.
  4. Spampagina’s gegeneerd door hacks verwijderen.
  5. Pagina’s met gevoelige inhoud blokkeren of verwijderen.
  6. Ongewenste pagina’s op websites van derde verwijderen.

Terzijde: wil je pagina’s uit Bing verwijderen? Gebruik de Bing removal tool.

Scenario 1 – Pagina’s met weinig of gedupliceerde inhoud oplossen

Dit zijn pagina’s met weinig inhoud of pagina’s waarvan de inhoud nagenoeg gelijk is aan andere pagina’s. Dit soort pagina’s kunnen je SEO-prestaties ernstig benadelen. In het geval je dergelijke pagina’s toch wilt behouden, kun je kiezen voor canonieke tags.

In andere gevallen kan het verstandig zijn om inhoud van laagwaardige pagina’s samen te voegen op andere pagina’s. Op deze manier maak je het geheel sterker. Als je deze methode in bulk toepast, kan het zomaar zijn dat je met minder pagina’s veel beter gaat presteren in de organische zoekresultaten. Om te bepalen wat er met dergelijke pagina’s moet gebeuren gaat het in essentie om één vraag: moet de inhoud wel of niet toegankelijk blijven voor bezoekers?

Weinig of gedupliceerde content die toegankelijk moet blijven voor bezoekers

In veel situaties wil je dubbele content uit de index houden, maar wel toegankelijk laten voor bezoekers. Vooral bij webshops komt veel summiere of gedupliceerde content voor. Denk aan de sortering, paginering of productfilters die nieuwe pagina’s genereren. Hoe je dergelijke pagina’s afhandelt is per situatie anders en in veel gevallen zijn er meerdere oplossingen mogelijk met elk hun eigen consequenties.

Voorbeeldscenario – Je hebt een webshop met kleding. Een specifiek kledingstuk bestaat uit meerdere maten en kleuren. Door te klikken op een kleur wijzigt de url, maar blijft de pagina hetzelfde. Enkel de URL, foto en titel zijn anders. Verder is de productbeschrijving identiek. In dit voorbeeld heb je in essentie vier gangbare opties:

  • Pagina verbeteren met unieke inhoud (beste keuze).
  • Interne linkstrategie toespitsen op de belangrijkste variant.
  • Canonieke tags verwijzen naar de belangrijkste productvariant.
  • De belangrijkste pagina behouden en de andere markeren met ‘noindex’-status.

Pagina verbeteren – De beste methode is om uiteindelijk productpagina’s te voorzien van meer unieke en relevante content. Natuurlijk kan je niet alles in één keer aanpassen. Doe dit gefaseerd met de belangrijkste categorieën en pagina’s voorop. Om te bepalen wat de belangrijkste pagina’s zijn, kijk je onder andere naar zoekvolumes en productwaarde.

Toespitsen op één variant – Voordat je direct begint met de volgende stappen wil je natuurlijk het liefst elke variant indexeerbaar houden. Kies daarvoor één variant en geef deze pagina een prominente plek in je interne linkstructuur en beperk dit bij andere varianten tot vermeldingen in listers. Uiteindelijk wil je de inhoud van elke pagina uitbreiden (zie optie 1 hierboven). Monitor actief of er complicaties ontstaan met gedupliceerde content. Als dat zo is kun je verder gaan met canonieke tags.

Canonieke tags – Canonieke tags (canonicals) zijn een goed alternatief op het moment dat de andere kleurvarianten enige autoriteit meenemen en je waarneemt dat deze duplicaten nadelige effecten hebben op je SEO-prestaties. Met canonieke tags geef je Google het signaal dat je de ‘kopieën’ erkent en alle kracht toewijst aan één kleurvariant. De canonieke variant wordt uiteindelijk geïndexeerd. Welke kleurvariant je kiest als canonieke variant is afhankelijk van je eigen voorkeuren, zoals: ‘welke versie is vanuit sales oogpunt de belangrijkste?’ of ‘welke variant presteert nu het beste in Google?’.

Noindex-tags – Met ‘noindex’-tags geef je enkel aan welke pagina’s je niet geïndexeerd wilt hebben. Deze optie kun je kiezen als de andere kleurvarianten geen autoriteit meedragen. Met ‘noindex’- of canonieke tags geef je aan wat je voorkeur is. Welke optie je ook kiest: combineer deze tags niet met elkaar, want daarmee geef je gemengde signalen, waardoor uiteindelijk de zoekmachine zelf een keuze maakt. En dat wil je juist zelf onder controle houden.

John Meuller (Reddit) – “You shouldn’t mix noindex & rel=canonical. they’re very contradictory pieces of information for us. We’ll generally pick the rel=canonical and use that over the noindex, but any time you rely on interpretation by a computer script, you reduce the weight of your input.”

Inhoud moet niet toegankelijk blijven voor bezoekers

Als je wilt dat de inhoud niet toegankelijk blijft voor bezoekers zijn er in essentie twee opties:

  • Heeft de pagina bezoekers en/of backlinks? Zo ja, 301-redirect de pagina naar een relevant alternatief. Het doel van een redirect is dat je bezoekers omleidt en autoriteit behoudt. Daarom is het belangrijk dat de redirect een perfecte match is met de nieuwe pagina. Is dit niet het geval? Dan kun je alsnog de opgebouwde autoriteit van de pagina verliezen.
  • Heeft de pagina geen bezoekers en/of backlinks? In dat geval kun je de pagina verwijderen met een 410-status-code. Met een 410 geef je zoekmachines het signaal dat de pagina verwijderd is. Bij een 404 is de pagina enkel vermist. Een 410 wordt doorgaans sneller opgepakt, waardoor de pagina snel uit de zoekresultaten verdwijnt. In beide gevallen is het zaak de sitemap en interne links bij te werken.
Scenario 2 – Geïndexeerd url’s met gecachte versie verwijderen

Zodra je een pagina hebt geüpdatet wil je natuurlijk dat bezoekers direct de nieuwe versie zien. Binnen de index van Google kan echter een gecachte (oude) versie getoond worden. In dat geval wil je voorkomen dat bezoekers die oude versie zien. Om dit op te lossen ga je naar Google Search Console en volg je de volgende stappen:

  1. Ga naar Google Search Console en log in.
  2. Selecteer de “property” van je domein.
  3. In de linker kolom, selecteer “verwijdering”.
  4. Aan de rechterkant selecteer “nieuw verzoek”.
  5. In de pop-up, selecteer de tab “Url in cachegeheugen wissen”.
  6. Selecteer de eerste optie als je enkel de cache wilt wissen van een url. Selecteer de tweede optie als je de cache van de gehele folder of prefix wilt verwijderen.
  7. Plaats de gewenste URL en klik op “volgende”. Vervolgens kun je de status van het verzoek volgen bij het startscherm met “ingediende verzoeken”.
Scenario 3 – Pagina’s uit migraties of ontwikkelingsomgeving

Tijdens een ontwikkelingsproces, zoals bij een herontwerp van je website, wordt een kopie van je site getest in een afgesloten testomgeving die niet toegankelijk is voor de buitenwereld. In de praktijk zie je regelmatig dat pagina’s uit een testomgeving wel toegankelijk zijn voor bezoekers en zelfs geïndexeerd worden in zoekmachines. Dit kan veel schade toebrengen aan je prestaties. In sommige gevallen nemen deze testpagina’s de prestaties over van de juiste pagina’s. De pagina’s uit de testomgeving ontvangen bezoekers en nemen rankingsignalen over van de correcte versie. Controleer dit in Google Analytics en Search Console. Is dit niet het geval? Dan kan je de volgende stappen volgen:

  1. Ga naar Google Search Console en log in.
  2. Maak een “property” voor het (sub)domein met ontwikkelingsomgeving.
  3. In de linkerkolom, selecteer “verwijderingen”.
  4. Aan de rechterkant, selecteer “nieuw verzoek”.
  5. In de eerste tab, selecteer “alle url’s met dit voorvoegsel verwijderen”.
  6. URL van het (sub)domein toevoegen en selecteer “volgende”.

Het subdomein blijft op die manier geïndexeerd, maar is tijdelijk verborgen. Vervolg de stappen met de volgende actiepunten:

  1. Verwijder de gecachte versie door de vorige stappen opnieuw te volgen.
  2. Implementeer ‘noindex’-metatags in de paginabron.
  3. Creëer een XML-sitemap met ‘noindex’-pagina’s.
  4. XML-sitemap indienen in de nieuwe “property” van Search Console.

Nu kan Google de ‘noindex’-pagina’s makkelijker vinden om te bepalen wat ermee moet gebeuren. Blokkeer de pagina’s tussentijds niet via ‘disallow’-regels in het ‘robots’-bestand. Dit vertraagt het proces en zorgt ervoor dat zoekmachines de ‘noindex’-tags niet kunnen vinden. Ga verder met de volgende stappen:

  1. Op het moment dat de pagina’s permanent uit Google zijn verdwenen kun je de sitemap verwijderen.
  2. Nu wil je de ontwikkelingsomgeving compleet afschermen en enkel toegankelijk maken voor website-ontwikkelaars en/of andere bevoegde gebruikers. Dit kan door gebruik te maken van de volgende methodes of een combinatie van beide.
    – Basic HTTP authentication: dit is een vorm van toegangsauthenticatie op serverniveau, zodat men eerst inloggegevens moet invoeren voordat de inhoud van de ontwikkelingsomgeving wordt vrijgegeven.
    – IP-adressen whitelisten: door enkel de IP’s van bevoegde gebruikers te whitelisten, krijgen enkel de IP’s van de aangegeven personen oegang tot de inhoud of het admin-panel van de ontwikkelingsomgeving.
Ontwikkelingsomgeving neemt prestaties over

Op het moment dat pagina’s uit de ontwikkelingsomgeving de prestaties van de daadwerkelijk website overnemen, kun je de volgende stappen volgen:

  • Volg stappen 1 tot en met 7 uit het vorige voorbeeld.
  • 301-redirect pagina’s naar het origineel en monitor activiteiten.
  • Lanceer een nieuw (sub)domein voor de ontwikkelingsomgeving.
  • Implementeer HTTP-toegangsauthenticatie en whitelist de gewenste IP’s voor de nieuwe ontwikkelingsomgeving.

Een testomgeving wordt meestal opgezet via een subdomein, zoals: ‘dev.domeinnaam.nl’, ‘test.domeinnaam.nl’ of ‘staging.domeinnaam.nl’. Dat is op zich prima, mits maatregelen worden genomen omtrent HTTP-authenticatie en/of het whitelisten van IP-adressen. In veel gevallen gebeurt dit echter niet. Doorgaans wordt enkel gebruik gemaakt van ‘noindex’-tags, restricties in het ‘robots’-bestand of kanonieke tags. Soms zelfs een combinatie van alle drie. Maar dat is geen betrouwbare werkmethode. Bovendien blijft de testomgeving zichtbaar voor derden. Je wilt tenslotte niet dat je ‘lorem ipsum’-teksten en nieuwe brandingsstrategie of andere onvolmaaktheden de gebruikers verwarren of negatief beïnvloeden.

Je kunt een zoekopdracht in Google verrichten met bijvoorbeeld ‘site:dev.*’ of ‘site:test.*’ om te achterhalen of er een testomgeving actief is. De beste manier is om navraag te doen bij de developmentafdeling. Hoe gaan zij om met een testomgeving? Wat is het huidige proces van testomgeving naar livegang? Op deze manier kun je adequaat inspelen op verbeteringen en een routeplan uitwerken voor het proces van staging tot livegang. Ondanks uitgewerkte instructies wil je als SEO-specialist altijd toezien op een livegang. Het zou niet de eerste keer zijn dat een livegang tijdens je vakantie al twee weken op ‘noindex’ staat.

Scenario 4 – Spampagina’s door hacks verwijderen

In dit scenario is je website is gehackt waardoor spampagina’s ontstaan. Spampagina’s kunnen je reputatie schaden en je SEO-prestaties in gevaar brengen. Dit moet je zo snel mogelijk oplossen. Doorloop deze zes stappen voor een gepaste oplossing.

  1. Ga naar de verwijderingstool zoals beschreven in de voorgaande voorbeelden.
  2. Geef de URL die je wilt verwijderen. Na de handeling zullen de betreffende pagina’s tijdelijk uit de index gehaald worden. Herhaal dit proces zolang als nodig is.

Als je te maken hebt met grote aantallen spampagina’s in een specifieke folderstructuur kun je kiezen voor de optie “alle url’s met dit voorvoegsel verwijderen”. Het kan zomaar zijn dat er duizenden spampagina’s achter schuil gaan. Let op! Gebruik deze optie heel zorgvuldig, je wilt tenslotte niet per ongeluk legitieme pagina’s verwijderen.

  1. Verwijder ook de gecachte versie van de spampagina’s door dezelfde stappen te volgen die hierboven bij het onderwerp “caching” zijn beschreven.
  2. Verwijder alle spampagina’s via een 410-statuscode. Hiermee geef je duidelijk aan dat ze verwijderd zijn.
  3. Creëer een extra sitemap met enkel de spam-url’s. Dien vervolgens de XML-sitemap in in de Google Search Console.
  4. Herstel je website met een back-up en probeer te bepalen wat de oorzaak is. Beveilig de oorzaak verder met voorzorgsmaatregelen om herhaling te voorkomen.

Zodra je ervan overtuigd bent dat de spampagina’s weg zijn, en je website is hersteld kun je de sitemap verwijderen. Tijdens dit proces wil je vooral niet de pagina’s blokkeren via het ‘robots’-bestand. In de praktijk maakt dit het proces van de-indexactie onnodig langzaam.

Scenario 5 – Pagina’s met gevoelige inhoud verwijderen

In dit scenario is er een datalek met gevoelige inhoud op je eigen website of websites van derden. Het kan bijvoorbeeld gaan om informatie over klanten en andere gebruikers of gegevens van sollicitanten. Zodra je de problemen signaleert op je eigen website maak je wederom gebruik van de verwijderingstool in Google Search Console.

  • Doorloop de stappen 1 tot en met 5 uit het vorige voorbeeld.
  • Bekijk de oorzaak en neem maatregelen om het probleem te voorkomen.
Scenario 6 – Ongewenste pagina’s op websites van derden verwijderen

In andere gevallen kun je ook te maken krijgen met ongewenste informatie op websites van derden. Soms komt dat door een fout van jezelf en is het eenvoudig te herstellen door contact op te nemen met de beheerder van de betreffende website. Wordt er niet op gereageerd? Dan kun je bezwaar indienen bij Google. Hier zijn verschillende scenario’s toegelicht met oplossingen en hulpmiddelen.

  • Een verzoek om persoonlijke informatie te verwijderen kun je via een formulier bij Google indienen.
  • Verwijderingsverzoeken bij wettelijke kwesties kun je ook bij Google aankaarten.
  • Ook kun je spam en fishing rapporteren.
  • Voor auteursrechtclaims en verwante zaken geeft Google ook aanwijzingen.
  • Voor informatie over het verwijderen van verouderde content uit de index kun je hier terecht.

Mijn advies is: monitor je website continu. Bij het verwijderen van pagina’s is het zaak om extra aandacht besteden aan je interne linkstructuur met redirects, 410- en 404-meldingen in het bijzonder. Tools zoals Semrush en Google Search Console kunnen je hierbij helpen.

Over de auteur: Kevin van Beek is freelance SEO-specialist via kevinvanbeek.nl.

Deel dit bericht

Plaats een reactie

Uw e-mailadres wordt niet op de site getoond