Seit das Hamburger Abendblatt sowie die Berliner Morgenpost Anfang der Woche als Versuchskaninchen für bezahlte Inhalte im Onlineverlagsumfeld dienen, quillt mein Feedreader mit Meinungen und Einschätzungen zu der Sache über. Ich will mich inhaltlich aber gar nicht dazu äußern, sondern lediglich etwas zu der technischen Umsetzung schreiben, da hier offenbar noch Unklarheiten vorhanden sind.
Google kommt Verlagen deutlich weiter entgegen, als allen anderen Content-Anbietern im Internet. Danny Sullivan (der von Searchengineland) hat das vor einiger Zeit mal sehr schön zusammengefasst. Ein Teil des Entgegenkommens hört auf den Namen „First Click Free„: wenn ein User über eine Google-Seite auf die Zeitungsseite kommt, kann er den ersten Artikel kostenlos ansehen, muss für weitere Inhalte aber zahlen. Das wird in der Regel so umgesetzt, dass Besucher, die via Google auf die Seite kommen über ihren Referrer erkannt werden und dann erst ab dem zweiten Seitenaufruf zur Kasse gebeten werden.
Böses Cloaking?
Damit die Seiten allerdings in die Google Websuche sowie Google News aufgenommen werden können, muss der Googlebot sie ohne Einschränkungen crawlen können. Dafür werden an den Suchmaschinencrawler und die menschlichen Besucher unterschiedliche Versionen der Seite ausgeliefert: sogenanntes Cloaking. Cloaking war früher in der SEO-Szene mal recht weit verbreitet, seit einigen Jahren sind die Vorteile in der Regel allerdings so gering beziehungsweise gar nicht mehr vorhanden, dass man darauf verzichtet. Wenn netzpolitik.org in einem Posting das Cloaking der beiden Seiten in eine graue Ecke rückt („… hatte doch tatsächlich gedacht, dass “Cloaking” nach wie vor zu einem Ausschluss aus den Suchergebnislisten (SERPS) führe.“) so ist das zu kurz gedacht: hier wird nicht gecloaked, um in den SERPs irgendwelche Vorteile zu haben, sondern es wird mit expliziter Erlaubnis von Google ein Feature zur möglichen Monetarisierung der Seite umgesetzt.
Ungeschicktes Cloaking
Die technische Umsetzung der Erkennung Bot/Mensch scheint Anlass für andere Postings zu sein (zum Beispiel Chip.de oder Carta.info). Der Zugriff des Googlebot sieht in den Logfiles aktuell so aus:
66.249.71.13 - - [16/Dec/2009:13:05:13 +0100] "GET /news/ HTTP/1.1" 200 16199 "-"
"Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)"
Vorne die IP-Adresse, dazwischen für uns unwichtiger Kram und hinten der User-Agent. Es gibt die Möglichkeit, das Cloaking auf Basis der IP-Adresse, der User-Agents oder mit einer Kombination beider Informationen umzusetzen. Zumindest das Abendblatt hat sich wohl dazu entschieden, nur auf den User-Agent zu setzen. Das ist etwas ungeschickt, da dieser Wert vom Nutzer beliebig eingestellt werden kann (beispielswiese durch ein Firefox Plugin) und er danach Zugriff auf die kompletten Inhalte hat. Besser wäre eine Kombination aus IP-Adresse und User-Agent: dazu bieten die großen Suchmaschinen seit Jahren ein etabliertes Verfahren an. Bei allen Zugriff, bei denen man anhand des User-Agents vermutet, dass er von einer Suchmaschine kommt, wird in einem ersten Schritt geschaut, welchen Reverse-DNS-Eintrag die IP-Adresse hat:
beus@helios:~$ host 66.249.71.13
Name: crawl-66-249-71-13.googlebot.com
Kommt dann ein Hostname innerhalb der Domain googlebot.com heraus, wird dieser wieder zurück auf die IP-Adresse aufgelöst:
beus@helios:~$ host crawl-66-249-71-13.googlebot.com
crawl-66-249-71-13.googlebot.com A 66.249.71.13
Sieht in diesem Fall gut aus: die IP-Adresse von Anfang kommt hier zum Schluß wieder raus. Damit kann verhindert werden, dass lediglich die Änderung des User-Agents dazu führt, dass eigentlich für die Suchmaschine gedachte Seiten an Nutzer ausgeliefert werden. Ist übrigens nicht so ganz neu das Thema …