Robots.txt

Was ist die robots.txt Datei?

Eine robots.txt-Datei wird verwendet, um das Crawling-Verhalten von Bots zu steuern. Diese Datei enthält Anweisungen darüber, wie sich der Bot beim Crawlen der Website verhalten soll. Wenn Du etwas vor den Suchmaschinen verbergen willst, schreibst Du es in die robots.txt-Datei. Die robots.txt-Datei befindet sich im Stammverzeichnis Deiner Website. Meistens ist sie auch genau als „robots.txt“ benannt.

Wofür kannst Du robots.txt Dateien verwenden?

Eine robots.txt-Datei ist im Grunde eine Textdatei, die dem Googlebot mitteilt, was er beim Crawlen Deiner Website tun darf und was nicht. Dazu teilt sie Google mit, welche URLs es ignorieren soll und welche URLs es folgen soll. Dies ist besonders nützlich für Websites, die eventuell Duplicate Content aufweisen, Private Websites oder Seiten, die nicht in den SERPs angezeigt werden sollen.

Durch Hinzufügen der entsprechenden Befehle zu Deiner robots.txt-Datei kannst Du sicherstellen, dass Google diese Dateien nicht indiziert, auch wenn jemand versucht, sie manuell zur URL hinzuzufügen.

Was musst Du bei der robots.txt Datei beachten?

Bevor Du die Datei robots.txt erstellst oder bearbeitest, solltest Du beachten, dass Crawler nicht dazu verpflichtet sind, die Anweisungen von robots.txt Dateien zu befolgen. Einige Crawler werden Deine Anweisung zurückweisen, obwohl sie dieser eigentlich folgen sollten. Außerdem werden robots.txt von einigen Suchmaschinen nicht unterstützt. Ob ein Bot Deinen Anweisungen folgt, hängt davon ab, welche Art von Crawler es ist. Der Googlebot zum Beispiel befolgt die Anweisungen in robots.txt-Dateien, der BingBot hingegen nicht. Wenn Du das Crawling nicht zulassen möchtest, solltest Du andere Möglichkeiten in Betracht ziehen, um unerwünschte Besucher zu blockieren. Dazu gehört zum Beispiel der Passwortschutz privater Dateien auf Deinem Server, die Einrichtung von IP-Adressbeschränkungen und das Hinzufügen von Headern zu Deinem HTML-Code. Auch kannst Du einzelne Seiten Deiner Website passwortschützen, wenn Du nicht möchtest, dass Unbefugte auf diese Inhalte Zugriff haben.

robots.txt und Suchmaschinenoptimierung

Die robots.txt-Datei ist eine der wichtigsten Dateien für die Suchmaschinenoptimierung. In ihr legst Du fest, welche Crawler auf Deine Website zugreifen dürfen und welche nicht. Auf diese Weise kannst Du die Indizierung bestimmter Seiten oder Verzeichnisse bewirken. Außerdem ist es wichtig zu wissen, dass die robots.txt-Datei auch den Crawling-Prozess der Suchmaschinen selbst beeinflusst. Wenn ein Crawler ein Verzeichnis betritt, wird er automatisch alles crawlen, was darin enthalten ist. Ist ein Verzeichnis jedoch über die robots.txt-Datei als verboten markiert, wird es vom Crawler ignoriert, sofern sich diese an Deine Vorgaben halten.

Kannst Du Deiner robots.txt blind vertrauen?

Die robots.txt-Datei ist eine Standardmethode, um Suchmaschinen zu signalisieren, was sie indizieren dürfen und was nicht. Doch obwohl sie ein weit verbreitetes Instrument ist, gibt es immer noch einige Fragen, ob man sich darauf verlassen kann. Insbesondere verwenden viele Websites die Datei, um das Crawling vollständig zu blockieren, obwohl sie Besuchern den normalen Zugriff auf die Website erlauben. Das ist aus Gründen des Datenschutzes sinnvoll, hält aber Bots nicht wirklich vom Zugriff auf die Website ab. Sowohl Google als auch Bing erklären, dass sie die Robots-Datei respektieren, sind aber rechtlich nicht dazu verpflichtet, sie zu befolgen. Es steht ihnen frei, sie völlig zu ignorieren.

Auch wenn sie technisch gesehen nicht gegen die Regeln verstoßen, könnten sie trotzdem Dinge tun, wie Cookies auf Deinem Computer speichern, ohne Dich um Erlaubnis zu fragen.

Kontakt

Melde Dich
bei uns

  +49 9381 5829000