Wie kommen die unterschiedlichen Werte zu den indexierten Seiten bei der Google-Suche, der GSC und SISTRIX zustande?

Manchmal kommt es vor, dass die Kennzahlen aus einer Google site:-Abfrage, der Google Search Console (GSC) und der SISTRIX Toolbox nicht übereinstimmen. Warum ist das so?

Die Daten einer Google site:-Abfrage und den der GSC lassen sich per se nicht miteinander vergleichen, da die Zahlen in der Search Console von Google gesondert berechnet werden. Daher kommen sie zu anderen Ergebnissen, die auch zu anderen Zeitpunkten veröffentlicht werden.

Vergleich der indexierten Seiten: Google site:-Abfrage und die SISTRIX-Daten

Ein Vergleich: Eine site:-Abfrage bei Google:

Google site Abfragen

Und die indexierten Seiten der gleichen Domain in der SISTRIX Toolbox:

Verlauf der indexierten Seiten für zalando.de in der SISTRIX Toolbox. Die Anzahl der Seiten ist meist konstant um die 3 Millionen. Es gibt jedoch mehrere Ausreißer Mitte 2018, bei denen die Werte von Google mit zwischen 10 Millionen und 20 Millionen indexierten Seiten ausgegeben wurde.
Bei der Auswertung zweier Datensätze gilt es immer das Erhebungsdatum zu berücksichtigen. In dem gezeigten Beispiel sind die Daten der Google site:-Abfrage aktueller.

Die Anzahl der indexierten Seiten in der SISTRIX Toolbox ist ein Durchschnittswert

Die Anzahl indexierter Seiten ist laut Aussagen von Google bei über 1.000 Seiten eine grobe Schätzung – man beachte das Wort „Ungefähr“ vor den Ergebnissen. Um die größten Ausreißer zu eliminieren, erheben wir bei SISTRIX mehrmals wöchentlich Daten zu den indexierten Seiten und errechnen dann einen Durchschnittswert.

Wir führen dabei Abfragen mit dem Suchoperator site: bei Google durch. Unsere Zahlen kommen also von Google, wir berechnen nur noch zusätzlich einen Durchschnittswert. Wenn die Zahlen zwischenzeitlich bei uns gesunken (oder gestiegen) sind, dann sind das die Zahlen, die Google bei der site:-Abfrage so ausgeliefert hat.

Stark schwankende Werte sollten untersucht werden

Trotzdem sollte man sich bei stark schwankenden Werten mit der Ursache beschäftigen. In vielen Fällen sind Duplicate Content oder Inhalte, die Google als wenig wertvoll einstuft, die Ursache. Google indexiert die Seiten erst einmal (die Anzahl indexierter Seiten geht hoch) und filtert Duplikate und weniger wertvolle Seiten dann wieder aus (die Anzahl indexierter Seiten geht runter). Dies gilt ebenfalls für z.B. Druckversionen, Sessions IDs, Affiliate-Links u.a.

Beispiel anhand von red-simon.com

Um die Ursache näher zu beleuchten haben wir manuell eine site:-Abfrage bei Google in der Form site:red-simon.com durchgeführt und uns dann insbesondere die hinteren Treffer angeschaut.

Google Siteabfrage von red-simon.com aus 2013. Es tauchen viele URLs mit Parametern in den Suchergebnissen auf.

Bei red-simon.com zeigte sich, dass sehr viele dynamische URLs in den Suchergebnissen zu finden waren, die viele Parameter enthalten. Darunter z. B.

red-simon.com/data/cmsv2.asp?mid=41&sid=1&pid=533

Diese Inhalte sind wahrscheinlich unter verschiedenen URLs erreichbar und somit Duplikate. Teilweise werden sie auch per 302-Redirect (temporär) weitergeleitet, was Google leicht verwirren kann. Bei Weiterleitungen sollte man immer 301-Redirects verwenden.

Es wäre sicherlich gut für die Website, wenn man die dynamischen URLs entfernt und durch statische URLs ersetzt. Weiterleitungen mit mod_rewrite wäre hier z.B. ein Lösungsansatz.