Best practice - 31 oktober 2016 - 16:00

TF-IDF: Een nieuwe rage in SEO?

SEO evolueert. Elk jaar zijn er nieuwe ontwikkelingen en gaan de rages van vorig jaar weer de prullenbak in. Eén techniek die zeker niet zal verdwijnen is TF-IDF, een wiskundige formule die behalve in Duitsland vrijwel onbekend is. Dat is zonde, want TF-IDF kan een waardevolle toevoeging zijn op moderne SEO-technieken en tools.

TF-IDF staat voor term frequency (with) inverse document frequency. In feite is dit een wiskundige formule. TF-IDF is de mate van belang van een specifiek woord in een tekst, dat tot stand komt door het te vergelijken met de frequentie van dat woord in andere teksten.

Het eerste deel van de formule, de term frequency, is de frequentie van een woord in een tekst. Een hoge term frequency staat gelijk aan een woord dat vaak in die tekst voorkomt. Maar met TF alleen kom je er niet.

IDF, oftewel inverse document frequency, kan namelijk gebruikt worden om te kijken naar het belang van een woord in meerdere teksten, samen de corpus genoemd. Door de corpus als referentie te gebruiken kun je er achter komen hoe belangrijk een woord is in een tekst. Woorden zoals ‘de’ of ‘het’ worden er uitgefilterd, omdat ze ook vaak voorkomen in andere teksten.

Een voorbeeld. Stel dat je een corpus hebt van allerlei krantenartikelen en één specifiek artikel over Amerika. Door middel van TF-IDF kan je er achter komen dat het woord ‘Obama’ erg belangrijk is in dat artikel. Het komt namelijk veel vaker voor in die tekst dan in alle andere krantenartikelen die als vergelijking dienen. Dat is dus in het kort hoe de formule werkt.

Maar wat heeft dat te maken met search?

TF-IDF wordt met name gebruikt door zoekmachines. De berekening, die is ontstaan in de jaren 70 en 80, speelt een belangrijke rol in bijvoorbeeld Google en Yandex. Door het incorporeren van TF-IDF kan de zoekmachine er beter achter komen waar een tekst over gaat. Als je als gebruiker zoekt naar ‘bank’, verwacht je dan resultaten met de geldinstelling of een zitbank? Door middel van TF-IDF kan de zoekmachine kijken naar woorden die vaak in combinatie met andere termen voorkomen in een artikel, en zo er achter komen waar het artikel over gaat: de geldinstelling of de zitbank.

TF-IDF wordt dus al langer gebruikt in zoekmachines, maar nog weinig door de gemiddelde webmaster. En dat is zonde. Zo kan TF-IDF dienen als inspiratie voor sleutelwoorden. Net als met de AdWords Keyword Planner kan je met TF-IDF woorden vinden die gerelateerd zijn aan het woord dat je invoert. Op deze manier krijg je suggesties van sleutelwoorden die je kan gebruiken om een tekst uniek te maken, wat een positief effect heeft op je search ranking.

Zo zou je een analyse kunnen uitvoeren van sleutelwoorden die op je eigen website moeten voorkomen. Dit kan door concurrerende websites te indexeren als corpus. Neem een webshop in geluidsapparatuur. Door gebruik te maken van TF-IDF komt de eigenaar van de webshop er achter dat de meeste concurrenten naast het woord ‘geluidsapparatuur’ vaak het woord ‘luidsprekers’ gebruiken.

formule voor content optimalisatie

Nu weet deze eigenaar dat hij hier een aanpassing moet maken, aangezien het woord ‘luidsprekers’ niet vaak voorkomt op zijn website. Op deze manier kan TF-IDF erg nuttig zijn.

Dan blijven er nog twee vragen onbeantwoord.

Hoe ga je aan de slag, en waarom hebben wij hier niet eerder van gehoord?

Eén van de nadelen van TF-IDF is dat het niet gemakkelijk zelf te berekenen is. In dat geval moet je zelf je corpus opstellen, en aan de slag gaan met de bijbehorende wiskunde (bekijk de Wikipediapagina maar eens). Je hebt er dus een online tool voor nodig. Een van de weinige beschikbare tools is de website-analyse van OnPage.org, van de Duitse search deskundige Marcus Tandler.

Dit is dan ook één van de redenen dat deze formule nog niet wijdverspreid is in het SEO-vak. Zonder online tool kom je niet ver, en er lijken tot nu toe nog weinig websites te zijn die deze dienst aanbieden. Daarnaast geeft Tandler in een podcast aan dat sommigen het te oud vinden. Het is niet relevant meer voor het SEO van vandaag. Onze Duitse buren zien dat duidelijk anders en terecht. TF-IDF kan echt een extra hulp zijn in het verbeteren van je online vindbaarheid. Of het nu al honderd jaar bestaat of niet.

Dit neemt niet weg dat er ook nadelen aan TF-IDF zitten. Een tekst wordt bijvoorbeeld gezien als een groep woorden zonder volgorde of structuur. Dit betekent dat bijvoorbeeld een website in een corpus wordt geïndexeerd als gehele website. Alle woorden op die website, inclusief menu, contactinformatie, en meer, zullen worden gebruikt als referentie. Dit kan je resultaten scheeftrekken.

Misschien een goed idee dus om het zelf eens uit te proberen, wat kan met de freemium OnPage.org tool. Er zitten wat haken en ogen aan, maar het is zonde dat de formule zo onbekend is; websitebeheerders en anderen kunnen hier zeker gebruik van maken. Maar of het ook zo’n succes in Nederland wordt valt te bezien. Hopelijk komen er meerdere tools op de markt, want anders zijn we aangewezen op OnPage, en zal de hype niet snel de landsgrenzen oversteken.

7 Reacties

Robin Schuil

1 november, 2016

TF-IDF is -zoals het artikel zelf al vermeldt- oud en niet heel relevant meer voor het SEO van vandaag.
Zelf maak ik gebruik van door tools die gebruik maken van “word embeddings”. Deze relatief nieuwe methode wordt sinds ruim een jaar door o.a. Google zelf toegepast. Deze methode leert de “betekenis” van woorden op basis van de context waarin ze gebruikt worden en biedt vele voordelen ten opzichte van het oude TF-IDF. Zo kan niet alleen de relatie tussen woorden worden bepaald, maar ook tussen alinea’s of hele pagina’s.
Bijvoorbeeld, de top 5 meest gerelateerde woorden voor “geluidsapparatuur” zijn in mijn tool “tos-link”, “av-receiver”, “geluidsdrager”, “cd-spelers” en “mediaspelers”. Voor “luidsprekers” is de top 5 “speakers”, “subwoofer”, “versterker”, “soundbar” en “geluidskwaliteit”.
Het is ongetwijfeld een kwestie van tijd voordat er nieuwe tools op de markt verschijnen die deze techniek ook beschikbaar maakt voor marketeers met minder kennis van techniek.

Romano Groenewoud

1 november, 2016

Uiteraard zullen er meer geavanceerde tools zijn ontwikkeld door marketing bureaus bedoeld voor in-house gebruik.

Voor de doorsnee webmaster die geen tijd en/of budget kan of wil steken in het ontwikkelen van dergelijke tools, is de in beginsel kosteloze TF-IDF analyse binnen OnPage.org een goede second opinion, mijns inziens, wanneer het aankomt op het verbeteren van content en on-page instellingen.

Paranoid

1 november, 2016

de TF IDF score van ‘onpage.org’ is verdacht hoog in dit artikel.

Mijn intern algoritme triggered de term: ‘Sponsored posting’ ?

Romano Groenewoud

2 november, 2016

Ha Paranoid (toepasselijke gebruikersnaam),

Ik neem aan dat je opmerking niet serieus bedoeld is,
maar indien dat wel het geval is:

De tool binnen het pakket dat ik niet meer zal noemen
om de keyword density niet verder te verhogen is mijns
inziens de meest toegankelijke optie voor de gemiddelde
website eigenaar om zonder kosten de TF – IDF formule
te testen zonder kosten te hoeven maken.
Indien men overtuigd raakt van de werking van de tool,
zou men kunnen kiezen voor een betaalde account,
maar dat is geenszins noodzakelijk.

Daarbij, zijn er in het vakgebied Search meer (freemium)
tools die veelvuldig genoemd zullen worden in artikelen
die gaan over de specifieke werkzaamheden waar de tool
mee helpt.
Veelvuldig linkbuilding advies artikel zal de namen
‘Majestic’ ‘Ahrefs’ of ‘Open Site Explorer’ noemen.
En stukjes over zoekwoorden onderzoek zullen vaak
de productnaam ‘Google Keyword Planner’ bevatten
(helaas lijkt Google tegenwoordig een actief betalend
AdWords account te vereisen om beperkingen
omtrent de data die verkregen kan worden uit deze
tool op te heffen).

Ik heb geen connecties met Marcus Tandler of zijn tool,
en kan geen affiliate linkjes vinden in dit artikel.
Ik heb er in ieder geval geen baat bij dat mensen
deze gratis tool uitproberen.

Minder Paranoid

2 november, 2016

@Romana, dank voor de waardevolle toelichting.

Edon van Asseldonk

7 november, 2016

Interessant artikel al denk ik dat TF-IDF ook wel buiten Duitsland bekend is (ik ben het in ieder geval al vaak tegengekomen in de Amerikaanse SEO-literatuur).

Zelf beschouw ik dit als een vorm van topic modeling, waarbij Google dus analyseert wat de onderwerpen van een webpagina zijn en hoe goed deze onderwerpen door de content ‘gedekt’ worden.

Hoewel TF-IDF een statistische methode is, kun je bij veel onderwerpen ook al (gratis) informatie opdoen door bij een zoekopdracht omtrent dit onderwerp de eerste zoekresultaten in Google te bekijken en op te schrijven welke woorden gebruikt wordt voor populaire webpagina’s voor deze zoekopdracht.

Chantal

18 november, 2016

De kern van het verhaal lijkt me helemaal goed, alleen jammer dat daar een tool voor nodig is. En jammer dat we teksten wiskundig blijven benaderen en in keywords blijven denken ipv thema’s.

Als je toch een natuurlijke tekst maakt over geluidsapparatuur (thema) is het logisch dat je ook een keer het woord luidspreakers of speaker gebruikt? Als je even stilstaat over wat je op de pagina wilt gaan zeggen en waarom (wat wil je gebruiker weten) dan heb je binnen 5 minuten een lijstje met termen die je allemaal ndoig hebt om je verhaal compleet te maken voor je gebruiker.
En afhankelijk van je insteek gebruik je dan toch van nature al heel veel termen die gerelateerd zijn aan dit onderwerp?

Handig om het even te checken met een tool of je geen term hebt gemist voor je organische vindbaarheid, maar met gezond verstand kun je al hele goede teksten maken en ik denk zelfs betere omdat je verder kijkt dan wat je concurrentie heeft én uitgaat van wat je gebruiker wilt weten. Leuk dat een tekst technisch klopt voor SEO, maar als je aan de gebruiker denkt doe je al veel dingen goed.

Plaats een reactie

Uw e-mailadres wordt niet op de site getoond

Romano Groenewoud

SEOgeek

Channel

Search

TF-IDF: Een nieuwe rage in SEO?

Maar wat heeft dat te maken met search?

Hoe ga je aan de slag, en waarom hebben wij hier niet eerder van gehoord?

7 Reacties

Robin Schuil

Romano Groenewoud

Paranoid

Romano Groenewoud

Minder Paranoid

Edon van Asseldonk

Chantal

Plaats een reactie

TF-IDF: Een nieuwe rage in SEO?

Maar wat heeft dat te maken met search?

Hoe ga je aan de slag, en waarom hebben wij hier niet eerder van gehoord?

Deel dit bericht

7 Reacties

Robin Schuil

Romano Groenewoud

Paranoid

Romano Groenewoud

Minder Paranoid

Edon van Asseldonk

Chantal

Plaats een reactie