Derzeit erzähle ich auf der SEMSEO in Hannover etwas dazu, welche Seiten man überhaupt für Suchmaschinen erreichbar machen sollte, welche Gründe es dafür gibt und wie man sowas technisch umsetzt. Sowohl zum Nachlesen für die Anwesenden, als auch zur Information für die, die es leider nicht nach Hannover schaffen konnten, hier kurz der Inhalt.
Früher, ganz ganz früher hat Google jede Seite in den Suchindex aufgenommen, die dem Googlebot in die Finger kam. Zum einen war das Internet noch recht übersichtlich und die vorhandenen Inhalte in den meisten Fällen durchaus so gut, dass man sie aufnehmen konnte; zum anderen wurde die Qualität einer Suchmaschine damals häufig noch mit der Zahl der indexierten Seiten gleichgesetzt – wenn Yahoo einen etwas höheren Wert nannte, hat Google schnell nachgezogen und den internen Nummerngenerator angeworfen. Dieses Vorgehen wurde dann zusehends zu einem Problem, da die Anzahl der Seiten schneller wuchs, als Google neue Server hinstellen konnte. Scriptsprachen in Verbindung mit der damals gerade veröffentlichten Amazon-API, CSV-Produktlisten wie die von Zanox und weitere Möglichkeiten taten ihr übriges. Google hat sich dann entschlossen, die maximale Anzahl der indexierbaren Seiten einer Domain zu begrenzen und durch die Einführung des Supplemental Indexes wichtige von unwichtigen Seiten zu trennen. Das Problem ist nun, dass Maschinen Fehler machen. Wenn Google sich jetzt beispielsweise entscheidet, dass es lieber die PDF-Druckversionen der Artikelbeschreibungen aufnehmen will und die eigentlichen HTML-Seiten inklusive der Bestellmöglichkeit außen vor lässt, so hat ein Onlineshop erstmal ein großes Problem. Als Lösungsmöglichkeit bietet sich an, dem Googlebot das Indexieren der PDFs zu verbieten und so die Entscheidung, welche Seiten in den Index aufzunehmen sind, abzunehmen.
Die Frage, welche Seiten man in den Suchmaschinenindex lassen sollte und für welche man dies besser verbietet, ist leider schwer pauschal zu beantworten. Zu speziell und unterschiedlich sind Webseiten, als dass verallgemeinernde Tipps hier sonderlich hilfreich sind. Gedanken sollte man sich auf jeden Fall über Meta-Seiten, wie das Impressum, die Datenschutzerklärung sowie die AGB machen. Auch Seitentypen, die internen oder externen Duplicate Content produzieren, sollten lieber draußen bleiben. Suchergebnisse (das Thema Serps-in-Serps hatten wir hier ja erst vor kurzem) sind ebenfalls ein heißer Kandidat. Hier wird jeder seine eigenen Webprojekte kritisch beleuchten müssen, um eine sinnvolle Auswahl zu finden.
Für die technische Umsetzung gibt es nun drei grundlegende Möglichkeiten. Der Weg über die „robots.txt“ dürfte allen, die sich schon mal mit dem Thema Suchmaschinen beschäftigt haben, bekannt sein. Es ist eine simple Textdabei, die im Rootverzeichnis des Webauftrittes liegt und in einfacher Form Verbote für Suchmaschinencrawler enthält. Der Vorteil hierbei ist, dass die Umsetzung einfach und schnell geht und man die ganze Verwaltung zentral in dieser einen Datei vornehmen kann. Leider ist sie aber auch recht unflexibel, was die Möglichkeiten der Verbote angeht und ab und an vergessen Suchmaschinen auch schon mal, sich an die Vorgaben zu halten. Gut funktioniert der Weg über die robots.txt, wenn man beispielsweise komplette Verzeichnisse sperren will.
Die zweite Umsetzungsmöglichkeit besteht über den Robots-Metatag im HTML-Header der Seite. Nahezu alle Suchmaschinenbetreiber haben sich hier auf die Umsetzung dieser Möglichkeit verständigt. Das schöne an dieser Lösung ist, dass man – nicht wie bei der robots.txt – Seiten nur binär (rein/raus) bearbeiten kann, sondern durch Angaben wie „noindex, follow“ die Seite zwar aus dem Suchindex draußen halten kann, sie aber weiterhin zur Stärkung der internen Verlinkung nutzt. Nachteilig ist, dass die Umsetzung, je nach zugrundeliegendem System, relativ komplex werden kann. Eine Abwandlung dieser Möglichkeit besteht seit einigen Monaten darin, dass man die Angaben aus dem Robots-Metatag auch im HTTP-Header einer Seite übergeben kann. Dies ist insbesondere für Dateitypen, die keinen HTML-Header haben, geeignet: PDFs, Downloads, etc.
[Update] Ich bin jetzt endlich dazu gekommen, die Folien online zu stellen. Um weiterzukommen, auf den rechten Teil des Bildes klicken: