Ich gebe es zu, ich leide an einer fortgeschrittenen Form der Logfile-Abhängigkeit. Fast immer läuft auf meinem rechten Monitor eine Tail-Grep-Variante irgendeines meiner Projekte. Früh morgens eher das unaufgeregte Spidern von Microsoft, nach dem ersten Kaffee dann meistens Google und wenn ich mal ganz verrückt sein will, tu ich mir sogar ab und an das Verhalten des Yahoo-Robots in Textform an. Nicht nur mir dürfte aufgefallen sein, dass Google mit Abstand das „intelligenteste“ Crawlverhalten an den Tag legt: Seiten werden, je nach Aktualisierungshäufigkeit sowie allgemeiner Wichtigkeit gecrawled und in den Index aufgenommen. Interessanterweise ist nun ein Patent von Google aus dem Jahre 2003 veröffentlicht worden, das sich mit eben jenen Hintergründen des Crawlverfahrens beschäftigt.
Mitte 2003 beantragt und bereits im November 2007 unter der Nummer 7,308,643 als US-Patent zugeteilt, beschreibt es, nach welchen Kriterien ein Suchmaschinenbetreiber auswählen kann, welche URLs gecrawled werden und wie häufig das passieren soll. Die Verfasser haben die URLs im Index der Suchmaschine in drei verschiedene Kategorien eingeteilt: In der Standardkategorie, in der erstmal alle Adressen landen wird mit einer Frequenz gecrawled, dass alle dort vorgehaltene Adressen innerhalb eines definierten Zeitraumes einmal erneuert wurde – soweit ich mich richtig erinnere, war es 2003 noch so, dass der Googleindex rund einmal pro Monat erneuert wurde. Oberhalb dieser Kategorie ist eine, deren URLs täglich erneuert werden und noch eine Stufe höher eine, die unter „Real-Time“ läuft – hier soll noch deutlich häufiger gecrawled werden. In welche Kategorie eine URL einsortiert wird, macht das Patent von zwei Faktoren abhängig: PageRank der Seite sowie Aktualisierungshäufigkeit des Contents auf der Seite. Zwei Vermutungen, die so schon seit langem im Raum stehen, allerdings soweit ich weiß noch nie bestätigt wurden. Ebenfalls wird in dem Patent beschrieben, wie der Suchmaschinencrawler die Crawlfrequenz anhand der Zeit, die zwischen Request und Response des Servers vergeht, einstellen kann – langsame Server können als auch aus SEO-Sicht einen Nachteil bedeuten.
Wenn man nun bedenkt, dass die Innovationszyklen im Suchmaschinenbereich doch deutlich unter den vier Jahren, die seit Einreichung des Patents vergangen sind, liegen und ich das „Verhalten“ des Googlebots einbeziehe, so scheint es diese starren Kategorien nicht mehr zu geben. Wenn man jetzt eine Seite hat, deren Content recht statisch ist und somit einer der oben genannten Einflußfaktoren damit ausfällt, kann es Sinn machen, sich die Crawlfrequenz seiner Seite mal etwas genauer anzusehen, wenn man mehr Informationen als das 0 bis 10 der Toolbar haben möchte …