Wenn der kleine Googlebot abends in seinem Bett liegt und sich überlegt, was er macht, wenn er groß ist, dann hat er nur einen Wunsch: er wäre gerne so richtig schlau. Er will verstehen, aus welchen verschiedenen Elementen eine Webseite besteht, welchen Sinn die ganzen Zahlen und Buchstaben haben und in welchem Zusammenhang sie zueinander stehen. Leider, und da müssen wir ganz ehrlich mit dem Googlebot sein, hat er in den letzten gut zehn Jahren nur geringe Lernerfolge erzielt.
Zum Glück gibt es für geforderte Crawler Lernhilfen: die strukturierte Auszeichnung von Daten im HTML-Quellcode. Seit Sergey Brin und Larry Page, seine liebevollen Eltern, die Anzeige von strukturierten Daten in die Google Ergebnisse eingebaut haben und subtil das Gerücht streuen, dass Webseiten mit solchen Auszeichnungen besser ranken, kann der Googlebot so gekennzeichnete Daten immer häufiger finden und verarbeiten.
Wir wollten nun wissen, wie weit strukturierte Daten im Web eigentlich verbreitet sind. Dafür gibt es den SISTRIX Crawler. Dieser hat sich in der letzten Zeit gut 65 Milliarden URLs (65.650.465.110 um genau zu sein) angeschaut und zusätzlich die dort hinterlegten, strukturierten Daten nach der schema.org-Auszeichnung analysiert. Das ist die Datengrundlage für die kommenden Auswertungen. Hier ist sie:
Es gibt vier Typen, die auf mehr als 1 Prozent aller gecrawlter URLs zu finden waren. Blogposting und Blog sind auch dadurch stark vertreten, dass die großen Bloghosting-Dienste wie blogger.com & blogspot.com (beides von Google) diese Auszeichnung unterstützen. Eng damit im Zusammenhang steht Person als Schema.org-Typ: auch diesen nutzt Google intensiv, beispielsweise auf allen GooglePlus-Seiten. Die Popularität von Breadcrumb hängt vermutlich damit zusammen, dass man durch diese Auszeichnung eine schöne Anzeige in den Google-Ergebnissen erhält. Dass es für kostenlose CMS wie WordPress zahlreiche kostenlose und einfache Plugins dafür gibt, dürfte auch nicht schaden.
Zusammenfassend kann man sagen, dass die Auszeichnung strukturierter Daten bereits überraschend weit fortgeschritten ist. Zahlreiche Standard-Softwarelösungen integrieren diese Auszeichnung bereits ab Werk. Dass man sich damit (als Branche) nicht immer einen Gefallen tun, muss aber aber wohl erst rumsprechen. Gut für den Googlebot.