Yahoo mit neuer Crawlerversion

Im Zuge der Umstellung weiter Teile der Suchinfrastruktur, hat sich Yahoo endlich auch seines Crawlers angenommen. Die weltweit größte Hadoop-Installation, die Yahoo als Grundlage der Websuche betreibt (10k CPUs, 5 PetaByte Festplattenplatz) wird jetzt von „Slurp/3.0“ befüllt. Der Crawler ist bereits aktiv und ich konnte ihn schon in Webserverlogs in freier Wildbahn beobachten:

llf320021.crawl.yahoo.net - - [15/Apr/2008:03:16:05 +0200] "GET /news/ HTTP/1.0" 200 34962 "-" "Mozilla/5.0 (compatible; Yahoo! Slurp/3.0; http://help.yahoo.com/help/us/ysearch/slurp)"

Yahoo scheint einige der Kritikpunkte an dem Crawlverhalten des „alten“ Slurps behoben zu haben. So erscheint mir das Vorgehen der neuen Version deutlich geplanter und bandbreitenschonender. Auch gehören Eigenheiten, wie das Weglassen des „Trailing-Slashes“ bei Verzeichnissen nun hoffentlich der Vergangenheit an. Der neuen Crawler arbeitet von neuen IP-Adressen, wer also Cloaking auf IP-Basis betreibt, sollte ich spätestens jetzt überlegen, zur Erkennung von Suchmaschinencrawlern auf die „DNS-ReverseDNS-Methode“ zu wechseln.

Ähnliche Beiträge