Google-Crawling: So nutzt ihr die robots.txt-Datei

Mit der Textdatei robots.txt bestimmt ihr, welche Bereiche eurer Website für Google gesperrt sind. Das können zum Beispiel Login-Seiten mit sensiblen Daten sein. Hier ist Fingerspitzengefühl gefragt – die wichtigsten Tipps auf einen Blick.

Die robots.txt-Datei steuert das Google-Crawling.
Die robots.txt-Textdatei signalisiert Google und anderen Suchmaschinen,
auf welche Website-Bereiche sie nicht zugreifen dürfen.
(Red traffic lights von Horia Varlan unter CC BY 2.0)

Crawler (auch Bots genannt) sind Computerprogramme, die Dokumente im Web durchsuchen. Google nutzt Crawler, um Webseiten zu indexieren (= in seinen Trefferlisten-Bestand aufzunehmen).

Ein "User Agent" ist der Name, unter dem sich ein Suchmaschinen-Crawler beim Webserver anmeldet, um ein Dokument anzufordern.

Bekannte Crawler auf einen Blick (links der Crawler, rechts der dazugehörige User Agent):
  • Googlebot für Websuche: Googlebot
  • Googlebot für Bilder: Googlebot-Image
  • Googlebot für Videos: Googlebot-Video
  • Bing: bingbot
Bevor der Googlebot über eure Website saust, checkt er die robots.txt-Datei eures Online-Auftritts. Hier erfährt er, welche Bereiche für ihn gesperrt sind.

robots.txt – die Grundlagen

Die robots.txt liegt stets auf der obersten Verzeichnisebene:

➧ http://[www.beispiel.de]/robots.txt.

Ihr ladet sie in das Stammverzeichnis eurer Website.

Es gibt die Befehle "allow" (Zugriff erlaubt) und "disallow" (Zugriff nicht erlaubt). "allow" ist die Regel, weshalb ihr es normalerweise nicht ausdrücklich innerhalb der robots.txt nutzen müsst.

Bitte beachten:
➧ Groß- und Kleinschreibung sind relevant.

➧ Das Sternsymbol >*< funktioniert als Platzhalter: Wollt ihr alle Verzeichnisse sperren, die mit "beispiel" beginnen, müsstet ihr schreiben: beispiel*

➧ Das Ende einer Dateierweiterung definiert ihr mit dem Dollarzeichen >$<.

robots.txt – Aufbau und Beispiele

Zuerst legt ihr fest, für welchen User Agent die Regeln in der robots.txt-Datei gelten sollen. Für die Google-Websuche wäre das der Googlebot.

Dann nutzt ihr die zweite Einheit mit der Einleitung "Disallow" und listet hier die Seiten/Dateien auf, die die Suchmaschine nicht erfassen soll.

robots.txt-Beispiel 1:
  • User-agent: Googlebot
  • Disallow: /beispiel/
  • Heißt: Der Google-Crawler soll das Verzeichnis /beispiel/ nicht erfassen.

robots.txt-Beispiel 2:

  • User-agent: *
  • Disallow: /beispiel/
  • Heißt: Das Verzeichnis /beispiel/ ist für alle Suchmaschinen-Bots gesperrt. Das Sternchensymbol funktioniert als Platzhalter für alle Bots.

robots.txt-Beispiel 3:

Wollt ihr eure Website komplett vom Crawling ausschließen, sähe das so aus:
  • User-agent: *
  • Disallow: /

robots.txt-Beispiel 4:

Eine einzelne Seite oder ein einzelnes Bild schließt ihr in der robots.txt vom Google-Crawling so aus:
  • User-agent: Googlebot
  • Disallow: /beispiel.html
  • Disallow: /beispiel/bild.jpg

robots.txt-Beispiel 5:

Wollt ihr alle png-Bilddateien eures Online-Auftritts vom Google-Crawling ausschließen, sähe das so aus:
  • User-agent: Googlebot-Image
  • Disallow: /*.png$

robots.txt-Beispiel 6:

Ihr wollt ein Gesamtverzeichnis sperren, ein Unterverzeichnis jedoch für das Crawling zulassen? Et voilà:
  • User-agent: Googlebot
  • Disallow: /beispiel/
  • Allow: /beispiel/unterverzeichnis2/

Und so erstellt ihr eine robots.txt

Das Web bietet kostenlose robots.txt-Generatoren.
Der robots.txt-Generator von pixelfolk.net.

Kostenlose Tools helfen euch, eine robots.txt Textdatei zu erstellen. Zwei Empfehlungen:

➧ pixelfolk.net bietet einen >deutschsprachigen robots.txt-Generator.

➧ seobook.com bietet einen >englischsprachigen robots.txt-Generator.

Testen könnt ihr eure robots.txt in der >Google Search Console unter "Crawling" > "robots.txt-Tester".

Mit dem >Firefox-Addon roboxt! prüft ihr den Status einer Seite in der robots.txt.

Wann disallow und wann noindex?

Bitte beachten: Sperrt ihr eine Seite in der robots.txt, kann sie dennoch in den Google-Trefferlisten erscheinen – wenn andere Webseiten auf sie verlinken und sie so für den Googlebot indirekt auffindbar ist.

Wer auf Nummer sicher gehen will, sollte deshalb besser auf das noindex-Tag setzen.

Die Unterschiede auf einen Blick:

disallow in der robots.txt:
➧ Inhalte sollen nicht gecrawlt werden.

➧ Eine Aufnahme der Seiten in den Google-Index ist durch externe Verlinkungen dennoch möglich.

➧ Den disallow-Befehl nutzt ihr am besten bei (nicht rückverlinkbaren) sensiblen Daten...

➧ ...sowie um die Crawling-Kapazitäten des Googlebots nicht unnötig zu belasten (zum Beispiel bei riesigen Bilddatenbanken, die nicht unbedingt bei Google auffindbar sein müssen).

noindex:
➧ Google soll eure Inhalte crawlen, aber keinesfalls indexieren.

➧ Das noindex-Tag nutzt ihr für Seiten und Dateien, die auf keinen Fall in der Google-Suche erscheinen sollen.

Wichtig: Bitte nicht einen disallow-Befehl in der robots.txt und das noindex-Tag parallel nutzen. Kann der Crawler nicht auf das Dokument zugreifen, sieht er auch das noindex-Tag nicht. Wirkung gleich null.

robots.txt: Bitte sorgsam nutzen

Soweit meine kleine Einführung zum Thema robots.txt.

Bitte nutzt die Textdatei vorsichtig und wohlüberlegt: Leider passiert es immer wieder, dass Website-Betreiber mittels der robots.txt versehentlich große Teile ihrer Website komplett für Google sperren – und so massiv an Sichtbarkeit einbüßen.

Checkt deshalb regelmäßig euren robots.txt-Status in der Google Search Console.

Viel Erfolg! ;-)

Link-Tipp:

Kommentare

Hier bloggt Mathias Sauermann:

NEWSLETTER:

Erhalte die besten Beiträge meines Blogs >gratis und freibleibend!

Vernetze dich mit mir auf LinkedIn Xing FacebookInstagram.

Weitere spannende Beiträge dieses Blogs findest du in den Rubriken:
Online-Marketing-Tipps
Digitalisierung

Meinung!
Onliner-Allerlei


Titelbild: Digital Art unter CC0 1.0