Google veröffentlicht Liste mit IP-Adressen des Googlebot

Der Useragent ist bei HTTP(S)-Zugriffen vollständig frei wählbar. Daher gibt es nicht nur “echte” Googlebots, die unter dieser Bezeichnung im Internet unterwegs sind, sondern auch Dritte, die sich Vorteile dadurch versprechen, ihre Crawler ebenfalls Googlebot zu nennen.

In der Vergangenheit lief der einzige Weg, die Echtheit von Googlebot-Zugriffen festzustellen, über eine Reverse-DNS- und DNS-Auflösung der zugreifenden IP-Adresse. Hier ein aktuelles Beispiel aus unseren Logfiles:

66.249.66.67 [10/Nov/2021:10:59:29 +0100] "GET /news/ HTTP/1.1" "Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)"

Um jetzt festzustellen, ob dieser Zugriff durch einen echten Googlebot erfolgt ist, muss man zuerst den sogenannten Reverse-DNS-Eintrag für die zugreifende IP-Adresse ermitteln:

% host 66.249.66.67
67.66.249.66.in-addr.arpa domain name pointer crawl-66-249-66-67.googlebot.com.

Diesen nimmt man dann und löst ihn erneut auf, um die IP-Adresse zu erhalten:

% host crawl-66-249-66-67.googlebot.com
crawl-66-249-66-67.googlebot.com has address 66.249.66.67

Landet man hier auf der IP-Adresse vom Anfang (wie in diesem Beispiel), ist der Zugriff authentisch: hier war es wirklich Google und nicht jemand, der sich nur als Google ausgibt. Doch auch solche Fälle gibt es, wie dieser Logeintrag zeigt:

46.187.1.73 [10/Nov/2021:11:00:42 +0100] "GET /ask-sistrix/ HTTP/1.1" "Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)"

Der gleiche Useragent wie zuvor, doch ein anderes Bild bei der Auflösung der IP:

% host 192.165.113.171
Host 171.113.165.192.in-addr.arpa not found: 2(SERVFAIL)

Für diese IP-Adresse gibt es keinen Reverse-DNS-Eintrag und wenn man etwas weiter forscht, wird klar, dass der russische Provider, der diese IP-Adresse nutzt nicht ganz so seriös wie Google ist. Ein klarer Fall von einem unechten Googlebot.

Wie man sieht, ist dieser Prozess gar nicht so einfach und, je nach Geschwindigkeit der DNS-Server, kann er auch zu lange brauchen, damit der Webserver bei jedem Zugriff von einem Googlebot entscheiden kann, ob echt oder gefaked.

Um das Problem zu lösen, stellt Google ab jetzt eine Liste mit legitimen IP-Adressen zur Verfügung. In einem JSON-File listet Google dort alle IPs auf, mit denen der Googlebot derzeit unterwegs ist. 

So ist es deutlich einfacher, diese Liste regelmäßig auszulesen und bei Zugriffen von einem Googlebot kurz zu prüfen, ob die IP-Adresse des Zugriffs mit der Liste übereinstimmt. Danke, Google.

Ähnliche Beiträge