Was ist WDF*IDF?
Die Abkürzung WDF*IDF steht für „Within document frequency*Inverse document frequency“. Durch WDF*IDF können Texte analysiert und bewertet werden. WDF bestimmt die Relevanz des Inhaltes und IDF die Gewichtung eines Wortes im Vergleich zu anderen Dokumenten mit ähnlichem Inhalt.
WDF*IDF berechnen und verstehen
Während die Formel WDF*IDF nicht besonders schwer ist, erfordert die Berechnung der beiden Einzelteile WDF und IDF deutlich mehr mathematisches Verständnis. Zunächst werfen wir einen Blick auf die Hauptformel und beleuchten diese etwas genauer.
Die WDF*IDF-Formel:
Wi,j = WDFi,j * IDFi
Die umständliche Erklärung ist folgende: WDF*IDF errechnet die Termgewichtung W eines festgelegten Wortes i im Dokument j. Die Formel multipliziert also die Häufigkeit eines Wortes i in einem bestimmten Dokument j mit der Häufigkeit dieses Wortes innerhalb vieler relevanter Dokumente.
Ein Beispiel zum leichteren Verständnis:
In unserem Wiki befindet sich ein Artikel über das Thema Zielgruppe. Nun wollen wir untersuchen wie sich das Hauptkeyword „Zielgruppe“ im Verhältnis zu anderen Texten der gleichen Kategorie schlägt. Um diese Gewichtung herauszufinden, berechnen wir den WDF*IDF Wert dieses Keywords. Je höher der Wert ist, desto weniger Relevanz und Gewicht hat das Keyword im Vergleich mit anderen Dokumenten.
Der WDF Wert von unserem Artikel ist 0,5392 und der IDF Wert beträgt 2,5117. Multipliziert man die beiden Werte, so erhält man den WDF*IDF Wert von 1,354. Das ist ein guter Wert. Wie die einzelnen Werte im Detail zustande kommen, sehen wir uns nun genauer an.
Die Berechnung und Funktion von WDF
Der Name „Within Document Frequency” beschreibt den Zweck von WDF bereits recht gut. Übersetzt ins Deutsche bedeutet WDF in etwa „Häufigkeit innerhalb des Dokuments“. WDF berechnet also, wie häufig ein bestimmtes Wort im Text vorkommt. Manchen dürfte jetzt die altbekannte Keyworddichte in den Sinn kommen und WDF funktioniert tatsächlich ähnlich. Allerdings staucht der Logarithmus in der Formel das Ergebnis, sodass eine sehr häufige Wiederholung des Keywords zu einem deutlich besseren Score führt. Es wird also die relative Häufigkeit eines Wortes berechnet, indem das Keyword ins Verhältnis zu den anderen Wörtern gesetzt wird. Dadurch soll sinnloses Keywordstuffing verhindert werden.
Um den WDF-Wert zu berechnen, benötigt man die Frequenz bzw. Häufigkeit des Keywords (i) im Dokument (j). Anschließend teilt man diesen Wert durch die Gesamtlänge (L) des Textes.
Kleiner Tipp: Wer keinen log2 Knopf auf dem Taschenrechner hat, kann mit ln(WERT) / ln(2) dennoch einen log2 berechnen.
So berechnest Du die Within Document Frequency:
WDFi,j = log2 (Freqi,j + 1) / log2 (L)
Bleiben wir bei unserem Beispiel:
In unserem Artikel ist das Wort „Zielgruppe“ insgesamt 37 Mal vorhanden. Das entspricht einer Freqi,j von 37. Die gesamte Länge des Textes (L) ist 850 Wörter. Schreiben wir dies in unsere Formel, ergibt das:
WDF = log2 (37 + 1) / log2 (850)
WDF = 0,5392
Würde man die Keywordanzahl von „Zielgruppe“ um 20
erhöhen, auf insgesamt 57, so ergäbe das einen WDF Wert von 0,6019. Obwohl sich
die Keywordzahl um 54% gesteigert hat, ist der WDF Wert nur um 0,0627 Punkte
angestiegen. Hätten wir dagegen nur 17 mal das Wort Zielgruppe im Text, also 20
mal weniger, dann läge der WDF Wert bei 0,4285. Er ist also um mehr als 0,1
gesunken. Dies zeigt, dass es nicht viel bringt das Keyword unnatürlich oft in
einem Text zu nennen.
Die Berechnung und Funktion von IDF
Die „Inverse Document Frequency“ lässt sich nicht so schön mithilfe einer Übersetzung erläutern. Kurz gesagt setzt diese Formel das Keyword in Bezug zu allen Dokumenten, die dieses Wort enthalten. Zur Berechnung werden zwei Dokumentsammlungen benötigt: Eine mit dem Wert aller relevanten Dokumente mit dem gleichen Thema (ND), geteilt durch alle Dokumente mit dem untersuchten Keyword (Ni). Auch hier sorgt der Logarithmus für eine Stauchung des Ergebnisses, um Ausreißer zu vermeiden.
So berechnest Du die Inverse Document Frequency:
IDFi = log10 (1 + ND / Ni)
Erneut nehmen wir unser Beispiel zur Hand:
Wir haben den Text innerhalb der Hauptkategorie „Marketing“ eingeordnet. Laut Google gibt es dafür rund 2.970.000.000 Inhalte (ND). Nun brauchen wir noch die Inhalte in diesem Bereich, die unser Keyword „Zielgruppe“ enthalten. Dazu geben wir in Google einfach „Marketing Zielgruppe“ ein und erhalten rund 9.170.000 Ergebnisse (Ni). Setzen wir diese Zahlen nun in die Formel:
IDF = log10 (1 + 2.970.000.000 / 9.170.000)
IDF = 2,5117
In Kombination ergibt die WDF*IDF Formel also eine ungefähre Angabe wie relevant das Keyword im Vergleich zu anderen Dokumenten mit dem gleichen Thema und Keyword ist. Natürlich steigt die Verlässlichkeit und Genauigkeit des Ergebnisse mit der Anzahl der analysierten Dokumente. Allerdings ist der notwendige Aufwand dafür zu hoch, sodass es unmöglich ist wirklich alle Dokumente mit einzubeziehen. Weiterhin ist es wichtig, dass diese Analyse für jedes wichtige Keyword in einem Text durchgeführt wird, um das Thema möglichst umfassend abzudecken und nichts zu vergessen.
WDF*IDF ist für effektives SEO unverzichtbar
Für die Suchmaschinenoptimierung spielen Keywords und Inhalte einer Seite nach wie vor eine wichtige Rolle. Zwar ist der Einfluss dieser Faktoren über die Jahre gesunken, aber sie sind dennoch ein wichtiger Indikator für die Relevanz einer Website. Deshalb ist eine gute WDF*IDF-Analyse unerlässlich, um alle wichtigen Keywords abzudecken und im Text zu verwenden. Denn viele WDF*IDF-Tools zeigen unter anderem auf, welche Keywords noch fehlen, die sehr häufig in anderen Dokumenten vorkommen.
Außerdem hilft WDF*IDF im SEO bei der hollistischen Contenterstellung. Neben Keywords zeigt das Ergebnis weitere Begriffe, die im Zusammenhang mit dem Hauptkeyword häufig auftauchen. Dadurch kann die Relevanz des Inhalts weiter gesteigert werden. Ist das Thema eventuell noch nicht umfassend beschrieben, decken diese relevanzsteigernden Keywords weitere Themenfelder auf, die zuvor noch nicht beachtet wurden.
Somit kannst Du mithilfe von WDF*IDF-Tools sicherstellen, dass alle Keywords im Text vorkommen und ausreichend behandelt sind und zusätzlich mit relevanzsteigernden Begriffen den Text weiter anreichern. Für den Crawler der Suchmaschinen erscheint der Inhalt dann sehr relevant und umfangreich, sodass die Wahrscheinlichkeit eines guten Rankings steigt.
Die Nutzung von WDF*IDF-Analysen für SEO-Zwecke hat zur Entwicklung verschiedener Tools geführt, die dabei helfen, Inhalte zu optimieren und ihre Relevanz für bestimmte Keywords zu verbessern. Diese Tools analysieren Webseiten und vergleichen sie mit anderen Seiten, die für ähnliche Keywords ranken, um Empfehlungen zu geben, wie man den eigenen Content verbessern kann. Sie bieten Einsichten in die optimale Dichte und Verteilung von Schlüsselwörtern und -phrasen, unterstützen bei der Identifizierung von Content-Lücken und ermöglichen es, Inhalte gezielter auf Nutzeranfragen auszurichten.
Einige beliebte WDF*IDF-Tools sind:
- Ryte
- SEMrush
- SISTRIX Content Assistant
- Termlabs.io
- XOVI
- PageRangers
- Searchmetrics
- …
Diese Tools variieren in ihren spezifischen Funktionen und Benutzeroberflächen, aber alle zielen darauf ab, den Content in Bezug auf bestimmte Schlüsselwörter zu optimieren und letztendlich das Ranking in Suchmaschinenergebnissen zu verbessern. Sie sind wertvolle Helfer für Content-Ersteller, SEO-Experten und Webmaster, die ihre Online-Präsenz stärken und ihre Inhalte effektiver gestalten möchten.
Der kleine, aber feine Unterschied zwischen
WDF*IDF und TF*IDF
Häufig werden die beiden Formeln synonym verwendet. Tatsächlich gibt es allerdings einen Unterschied. Durch WDF, wie wir gerade gelernt haben, wird die Gewichtung eines Begriffes in Relation zum restlichen Dokument gesetzt und durch den Logarithmus gestaucht. TF dagegen ist eine gewöhnliche Berechnung der Keyworddichte, also der „Term Frequency“. Früher ein bewährtes Mittel, findet die Keyworddichte heute eher selten Anwendung, da die bloße Anzahl eines Keywords keine verlässliche Auskunft über die Gewichtung gibt.
Die Formeln gleichen sich also stark, führen aber zu unterschiedlichen Ergebnissen. WDF*IDF erzeugt einen gestauchten Wert, der leichter zu verstehen ist und weniger sensibel auf sogenannte „Ausreißer“ reagiert, während die TF*IDF-Analyse tendenziell extremere Werte ausgibt und sensibler reagiert.
Welche Nachteile birgt WDF*IDF?
Trotz der vielen Vorteile von WDF*IDF ist diese Formel nicht das Allheilmittel für SEO. Die Inhalte müssen auch mit WDF*IDF gut und ansprechend geschrieben sein und sollten mit Grafiken oder Bildern unterstützt werden. Der Content ist schließlich nur einer von vielen Faktoren für effektives SEO. Die Ladezeit der Website und vor allem die mobile Optimierung spielen eine mindestens genauso große Rolle wie der Inhalt. Nicht zuletzt ist auch die Konkurrenz für die Keywords wichtig und wie Google die Domain insgesamt einordnet.
Dank WDF*IDF kann also der Inhalt sehr gut optimiert werden, um die Nutzerintention zu befriedigen und das Thema ausführlich zu behandeln. WDF*IDF analysiert Wörter basierend auf ihrer Frequenz, ohne den Kontext oder die semantische Bedeutung vollständig zu berücksichtigen. Das kann zu einer Vernachlässigung des Gesamtkontexts und der Relevanz des Inhalts führen. Deshalb ist es wichtig zu wissen, dass Kompetenz, Wissen und Recherche damit nicht ersetzt werden. Daher empfehlen wir WDF*IDF zur Optimierung zu verwenden. Außerdem solltest Du stets beachten, dass WDF*IDF zum Keywordstuffing verleiten kann und Texte dadurch häufig nicht angenehm zu lesen sind.
Es empfiehlt sich also, WDF*IDF sinnvoll und überlegt zu verwenden, anstatt den Text mit den gefundenen Wörtern unüberlegt zu spicken.