Die sogenannte Robots.txt – eine im Rootverzeichnis der Domain abgelegte, reine Textdatei mit dem Namen robots.txt dient dazu, Suchmaschinen, die diese Datei beachten von bestimmten Bereichen der Webseite auszusperren. Obwohl bereits die Standardversion, die von den meisten großen Suchmaschinen unterstützt wird, immer wieder für Verwirrung sorgt, hat Google seinem Parser einige Erweiterungen beigebracht, die häufig nützlich sein können. So unterstützt Google ein Wildcard („*“) nicht nur in der User-Agent-Angabe sondern auch im Pfad. Die zweite Erweiterung ist der Zeilenende-Anker „$“. Hier einige Möglichkeiten der Verwendung und Fehler, die man besser nicht machen sollte. Da diese Erweiterungen derzeit nur vom Googlebot untersützt werden, sollte es immer eine Zweiteilung der robots.txt in Google und die restlichen Robots geben
User-agent: *
Disallow: /blog/member
Disallow: /forum/member
Disallow: /upload/member
User-agent: Googlebot
Disallow: /*/member
Wichtig ist, dass jede Disallow-Anweisung generell mit dem Slash (“/”) beginnt. Die meisten Suchmaschinen ergänzen diesen zwar automatisch, so nicht vorhanden, einige kann es aber trotzdem aus dem Tritt bringen. Herkömmliche Suchmaschinen ignorieren alle Seiten, deren URI mit dem in Disallow angegeben Pfad beginnt. Dies kann, wie in dem Beispiel, dazu führen, dass Anweisungen, bei denen gleich lautende Dateien in unterschiedlichen Verzeichnissen gesperrt werden sollen, auf gesplittet und so schnell unübersichtlich werden. Durch den Einsatz der Wildcard kann man den Umfang deutlich reduzieren.
Durch Einsatz des Zeilenenden-Ankers kann man recht einfach komplette Dateitypen von der Indexierung ausschließen. So verbietet folgende Anweisung die Indexierung aller .txt- und .pdf-Dateien, die potentiell Probleme mit doppelten Inhalten bergen:
User-agent: Googlebot
Disallow: /*.pdf$
Disallow: /*.txt$
Wichtig ist es hier, den Zeilenenden-Anker anzugeben, da sonst auch Dateien ignoriert würden, die “.pdf” im Dateinamen haben (Beispielsweise /schone-downloads-mit-.pdf-dateien.html).