foto: shutterstock.com
Om te kunnen scoren in de organische zoekresultaten van Google of andere zoekmachines is het altijd al belangrijk geweest om zoekwoorden in de content van je website te verwerken. Maar tot op heden is het echter niet zo eenvoudig om te bepalen hoe vaak een bepaald zoekwoord nu precies gebruikt moest worden. Veelal werd hier in eerste instantie een beroep gedaan op buikgevoel of gezond boerenverstand, om dan in een latere fase op basis van de verworven rankings, te gaan bepalen of een specifiek zoekwoord niet te veel of te weinig werd vermeld.
Aangezien Google bovendien steeds meer rekening probeert te houden met het onderwerp van de gehele pagina, is het ondertussen nog moeilijker geworden om te gaan bepalen hoe vaak bepaalde zoektermen in een tekst moeten worden gebruikt. Gelukkig is er de TF*IDF-analyse!
TF-wat??
Een TF*IDF-analyse is een wiskundige techniek die ervoor gaat zorgen dat je zoveel mogelijk zoekwoorden optimaal verwerkt krijgt in jouw content, en dat zonder dat het spammy wordt. Op basis van je eigen tekst én de tekst van alle andere resultaten in de zoekresultaten, zal via deze techniek duidelijk blijken welke zoekwoorden je teveel, te weinig of net voldoende gebruikt. En dat zonder dat je elk zoekwoord manueel moet gaan controleren.
Vanwaar komt nu die naam? Wel TF*IDF staat eigenlijk voor de twee zaken die we gaan controleren tijdens deze analyse, namelijk hoe vaak een bepaald zoekwoord voorkomt in je eigen tekst in vergelijking met het totaal aantal woorden in die tekst (=term frequency =TF) én hoe vaak dat dat welbepaald zoekwoord terugkomt in alle andere zoekresultaten (=inverse document frequency =IDF).
Concreet wordt de IDF-waarde bepaald door te kijken naar de hoeveelheid andere organische zoekresultaten die gebruik maken van deze zoekterm. Met andere woorden, hoe meer zoekresultaten binnen Google desbetreffend zoekwoord in de content van hun pagina hebben verwerkt, hoe hoger de IDF-waarde zal zijn, en hoe meer concurrentie er dus aanwezig is.
Wiskundige achtergrond
Zoals daarnet reeds vermeld is deze techniek eigenlijk een puur wiskundige benadering. Vandaar ook de naam TF*IDF, waarbij het sterretje staat voor een vermenigvuldigingsteken. Als we dit nu nog snel even in een formule zetten, met Wzoekwoord als eindwaarde voor je zoekwoord, krijgen we dus het volgende:
Wzoekwoord = TF x IDF
Stel nu dat in een tekst van 300 woorden een welbepaald zoekwoord 6 keer wordt gebruikt, dan kunnen we zeer eenvoudig de TF-waarde gaan berekenen. Aangezien TF (=term frequency) staat voor het aantal keer dat een zoekwoord voorkomt in de tekst ten opzichte van het totaal aantal woorden in die tekst, komen we al snel tot onderstaand resultaat.
TF = 6 / 300 = 0,02
De IDF-waarde staat dan weer voor de relevantie van het zoekwoord op het internet. De vraag die we hier stellen is eigenlijk in hoeveel zoekresultaten deze zoekterm voorkomt én hoe vaak dat deze zoekterm vermeld wordt over al die verschillende zoekresultaten heen. Als we er nu vanuit gaan dat in ons voorbeeld 50.000 ‘documenten’ gevonden worden waarin het zoekwoord wordt gebruikt én dat in al deze resultaten samen in totaal 400.000 keer dat zoekwoord wordt gebruikt, kunnen we de IDF-waarde als volgt gaan berekenen.
IDF = log(400.000 / 50.000) = 0,90
Om onze analyse te vervolledigen rest ons enkel nog om beide cijfers met elkaar te vermenigvuldigen.
Wzoekwoord = TF x IDF = 0,02 x 0,90 = 0,018
Hoe hoger deze eindwaarde, hoe zeldzamer het gebruik van het zoekwoord. Hoe lager de waarde, hoe vaker het zoekwoord op het internet verschijnt. Om nu te bepalen waar voor jou de grootste mogelijkheden liggen is het aangewezen om deze waarden naast de volumes uit je zoekwoordonderzoek te leggen, want zoekwoorden met een hoog zoekvolume en een lage concurrentiegraad (=hoge TF*IDF-waarde) bieden natuurlijk heel wat mogelijkheden voor snelle resultaten.
De meerwaarde van TF*IDF
Via een TF*IDF-analyse kan dus bepaald worden of een specifiek zoekwoord te veel, te weinig of net voldoende gebruikt wordt in jouw tekst. Dit wordt niet alleen vergeleken met het totaal aantal woorden in je eigen tekst, maar ook met de relevantie van het zoekwoord op het internet.
Naast het feit dat je hierdoor natuurlijk een optimaal zoekwoordgebruik in je teksten kan genereren én op die manier de gebruikerservaring aanzienlijk kan verhogen, is het ook een ideale techniek om zoekwoorden met hoge zoekvolumes en een lage concurrentiegraad te gaan opsporen. Je kan m.a.w. zeer eenvoudig bepalen waar de grootste progressie gemaakt kan worden.
Door het gebruik van een TF*IDF-analyse is de kans bovendien zeer groot dat je betere posities in de organische zoekresultaten behaalt. Google probeert namelijk steeds meer te achterhalen waar de content op een bepaalde pagina effectief over gaat. En aangezien er meer focus gelegd wordt op de relatieve frequentie van een zoekwoord dan op het zuiver tellen van zoekwoorden, kunnen we stellen dat de TF*IDF-techniek steeds meer als een ranking factor wordt gebruikt.
Een bijkomend voordeel is dat je via deze methode ook het overmatig gebruik van bepaalde stopwoorden aan banden kan leggen. Een TF*IDF-analyse hoeft namelijk niet noodzakelijk voor een zoekwoord te worden uitgevoerd. In principe kan elk woord uit je content geanalyseerd worden via deze techniek, maar de grootste meerwaarde van deze analyse zit hem uiteraard in het optimaliseren van het zoekwoordgebruik in jouw content.
Een praktisch voorbeeld
Met behulp van een tool als onpage.org kunnen we zeer snel bepalen of de belangrijkste zoekwoorden optimaal in onze content zijn verwerkt. Bovendien hoef je de volledige wiskundige formule niet meer zelf uit te voeren aangezien deze tool dat allemaal automatisch doet.
Bij wijze van voorbeeld hebben we dit even uitgetest voor een pagina op onze eigen website omcollective.com. Ondanks het feit dat we zelf eerder voorstander zijn van het uitwerken van een algemene online strategie, om daarbij dan te bepalen welke kanalen hiervoor wenselijk zijn, willen we als online marketing agency uiteraard ook gevonden worden op zoekopdrachten als ‘zoekmachine optimalisatie’ en dergelijke meer. We hebben echter gemerkt dat we momenteel nog niet bijster goed scoren voor deze zoektermen (momenteel staan we ergens op de tweede pagina).
Als we nu via een TF*IDF-analyse gaan kijken waarom we nog niet zo goed scoren met onze SEO-pagina, merken we al snel dat er qua zoekwoordgebruik in onze content nog wel wat verbeterd kan worden.
Via de tool van onpage.org krijgen we meteen een aantal interessante data voorgeschoteld. Op basis van de oranje balken in onderstaande grafiek kunnen we zien welke zoekwoorden de meeste relevantie hebben op basis van de geanalyseerde websites. Als we dit gaan vergelijken met onze eigen pagina (de groene bolletjes) zien we al snel welke, al dan niet belangrijke zoekwoorden, momenteel ontbreken. Zo zijn de zoekwoorden “seo” en “vindbaarheid” zeer goed in onze content verwerkt, terwijl dit voor “linkbuilding”, “zoekmachineoptimalisatie” en “landingspagina” absoluut niet het geval is.
We hebben dit nu enkel geanalyseerd voor losstaande zoekwoorden, maar we kunnen dit ook bekijken voor zoektermen die bestaan uit 2 woorden. Op basis van de grafiek hieronder merken we dan meteen dat ook termen als “seo optimalisatie” en “technische seo” niet voldoende in onze content zijn verwerkt.
Om alles nog meer in detail te kunnen gaan analyseren heeft onpage.org nog een diepgaander rapport in de tool geïmplementeerd. Hier kan je niet alleen zien welke zoekwoorden je niet goed op je website hebt geïntegreerd, maar ook hoe je dit kan verbeteren.
Het donkerblauwe balkje toont de gemiddelde TF*IDF-score van alle zoekresultaten in onze analyse samen. Hoe hoger deze balk in verhouding tot het lichtblauwe en het groene balkje, hoe universeler deze term is, of m.a.w. hoe vaker hij wordt teruggevonden in de verschillende websites.
Het lichtblauwe balkje toont dan weer de gemiddelde TF*IDF-score van alle zoekresultaten waarbij het desbetreffende zoekwoord ook effectief op de website wordt gebruikt. Hoe hoger deze balk is, hoe groter het verschil in score tussen de websites die de zoekterm effectief gebruiken en de websites waarbij de zoekterm niet vermeld wordt.
De groene balk toont het verschil tussen de gemiddelde en maximale TF*IDF-score voor dat specifieke zoekwoord. Dit is eigenlijk de zone waar jouw website zou moeten scoren aangezien dat dit de meest ideale TF*IDF-score voor dat zoekwoord is. Als jouw website (de groene bolletjes dus) onder of boven deze zone scoren, is het aangeraden om de zoekterm in kwestie respectievelijk meer of minder in jouw content te gaan verwerken.
Zo is het op basis van bovenstaande grafiek zeer duidelijk dat we onder meer de term “zoekmachineoptimalisatie” veel beter op onze website moeten verwerken en dat ook zoektermen als “seo” en “google” nog net iets meer op onze pagina moeten worden vermeld.
Ook hier valt de analyse zowel te maken voor zoektermen van één woord als voor zoekopdrachten van 2 woorden (zie onderstaande grafiek). Ook daar merken we dat bepaalde zoektermen frequenter in onze content moeten worden verwerkt, zoals bijv. “zoekmachine optimalisatie” en “technische seo”.
Als leuk extraatje kan je via deze tool ook bekijken wat de TF*IDF-score van je concurrenten is. Zo ontdek je niet alleen waar je zelf moet optimaliseren, maar ook waar de zwaktes van een concurrent liggen.
Uiteraard zal het zo goed als onmogelijk zijn om voor al deze zoekwoorden de optimale TF*IDF-score te realiseren, maar voor de belangrijkste termen uit je zoekwoordonderzoek kan dit wel tot heel wat nuttige inzichten en optimalisaties leiden.