Wird ein Verzeichnis oder eine bestimmte Seite einer Domain durch einen Eintrag in der robots.txt für den Zugriff durch einen Suchmaschinencrawler gesperrt, so wird dieser den Inhalt des Verzeichnis/der Seite nicht crawlen und indexieren. Es kann jedoch passieren, dass diese Seite trotzdem in den Suchergebnissen angezeigt wird.
Durch diese Angaben in der robots.txt wird das Verzeichnis „ein-verzeichnis“ und die Seite „eine-seite.html“ für den Webcrawler gesperrt:
User-agent: *
Disallow: /ein-verzeichnis/
Disallow: /eine-seite.html
Trotz Sperrung via robots.txt erscheint eine Seite in den Suchergebnissen
In einigen Fällen wird eine durch die robots.txt für Suchmaschinecrawler gesperrte Seite dennoch in den Google-Suchergebnissen angezeigt. Warum?
Hierbei gilt es zu verstehen, dass der Crawler die Anweisung aus der robots.txt durchaus beachtet und den Inhalt der für ihn gesperrten Seite weder crawlt noch in seinen Index aufnimmt. Google hat deswegen auch keine Information über den Inhalt der Seite zur Verfügung.
Wann wird eine gesperrte Seite in den SERPs angezeigt?
Sollte die gesperrte Seite viele eingehende Links (Backlinks) mit einem überwiegend eindeutigen Linktext aufweisen, so betrachtet Google den Inhalt der Seite als so relevant, dass die entsprechende URL, passend zum gesuchten Linktext, in den Suchergebnissen auftauchen kann.
Der Inhalt der Seite ist Google aber immer noch nicht bekannt, da dieser gemäß robots.txt nicht gecrawlt und indexiert wurde. In den Ergebnissen wird dann ein „Für diese Seite sind keine Informationen verfügbar“ zusammen mit einem Link auf Googles Hilfeseite.
Eine für den Zugriff durch Webcrawler gesperrte Seite, die jedoch in den Suchergebnissen angezeigt wird, lässt sich häufig durch ein fehlendes SERP-Snippet (z. B. der Description) erkennen.
Google achtet verstärkt auf Nutzersignale
Ein Beispiel: Wir sperren in der robots.txt den Zugriff auf unsere Seite http://www.domain.de/omas-kuchenrezept.html.
Der Crawler von Google befolgt unsere Anweisung und indexiert die Seite nicht. Das heißt, auch der Inhalt der Seite bleibt für Google unbekannt.
Nehmen wir jedoch an, wir haben auf dieser Seite ein wirklich atemberaubend gutes Kuchenrezept und erhalten enorm viele Links von anderen Webseiten, überwiegend mit dem Linktext “Omas bestes Kuchenrezept”. Dann könnte unsere für Google gesperrte Seite bei einer Suchanfrage zu “Omas bestes Kuchenrezept” in den Suchergebnissen auftauchen – obwohl der Zugriff für den Crawler durch die robots.txt gesperrt wurde.
Inhalte definitiv von den Suchergebnissen ausschließen – so geht’s
Die robots.txt ist demnach kein Garant für ein definitives Nicht-Erscheinen in den Suchergebnissen.
Um eine Seite definitiv aus den Suchergebnissen fernzuhalten, sollte das Meta-Element Robots mit dem Wert NOINDEX verwendet werden.
Was sagt Google?
Auch wenn wir eine URL nicht abrufen, wissen wir aus Ankertexten (...), die auf diese URL verlinken, dass sie wahrscheinlich ein nützliches Suchergebnis sein kann. Wenn du wirklich nicht willst, dass eine Seite (in den Suchergebnissen) angezeigt wird, verwende den NoIndex-Tag – dann erscheint die Site ganz sicher nicht den Suchergebnissen.
Quelle: Matt Cutts