Anfang der Woche relativierte Rand Fishkin in seinem Blogpost „What Do Correlation Metrics Really Tell Us About Search Rankings?“ die Aussagekraft der SEOmoz Korrelationsstudie zu den einzelnen Google-Rankingfaktoren. Indem er einige Fehler eingesteht, beweist Rand viel Courage und zeigt auf sympathische Weise, dass sich auch ein international anerkannter SEO-Guru einmal irren kann.
In den vergangenen zwei Jahren haben diverse Korrelationsanalysen im SEO-Bereich für viel Verwirrung und beherzte Diskussionen gesorgt. Es ist begrüßenswert, dass der „Vater dieser Studien“ jetzt für mehr Klarheit sorgt. Wir haben den Blogpost von Rand zum Anlass genommen, mit dem Statistik-Experten Dr. Steffen Wagner ein Interview über die Probleme und Herausforderungen bei statistischen Analysen der Rankingfaktoren zu führen.
SISTRIX: Hallo Herr Dr. Wagner, wollen Sie sich unseren Lesern kurz vorstellen?
Wagner: Hallo, mein Name ist Steffen Wagner. Ich arbeite als Statistiker in der vor knapp zwei Jahren aus der Freien Universität Berlin ausgegründeten Beratungsgesellschaft INWT Statistics GmbH. Unser Name „INWT – In Numbers We Trust“ ist Programm: unsere Beratungsleistung liegt in der quantitativen, datengetriebenen Analyse und darauf aufbauenden Prognosen in den Bereichen CRM und Online-Marketing.
SISTRIX: Im Jahr 2011 wurde von SEOmoz eine Studie veröffentlicht, welche anhand von Korrelationsanalysen die Beziehungen zwischen beobachteten Rankingpositionen und verschiedenen Eigenschaften der Treffer untersucht hat. Der gleiche Untersuchungsansatz wurde 2012 von Searchmetrics für die Suchergebnisse in Deutschland wiederholt. Wie schätzen Sie als Statistik-Experte diese Studien ein?
Wagner: Die von Ihnen angesprochenen Studien messen die Korrelationsstärke zwischen Google Rankings und einzelnen erklärenden Variablen. Bei der Interpretation von Korrelationsstärken ist generell eine gewisse Vorsicht geboten, da eine Korrelation zunächst nur das gemeinsame Auftreten bestimmter Ausprägungen misst, was nicht zwangsläufig auch eine Kausalität bedeuten muss. Deshalb sollten hinter den Korrelationen vermutete Kausalitäten kritisch hinterfragt werden: Stimmt die Wirkungsrichtung? Gibt es sachlogische Argumente, die die vermutete Kausalität stützen, oder eher unplausibel erscheinen lassen? Gibt es unberücksichtigte Einflussfaktoren, die zu einer Scheinkausalität führen könnten? So ist ja auch die Anzahl der Störche und die Geburtenrate korreliert, was sich bei genauerem Hinsehen aber durch den Grad der Urbanisierung der untersuchten Regionen sehr plausibel erklären lässt.
SISTRIX: Die Rangfolge der gemessenen Korrelationen entspricht nicht der Rangfolge der wichtigsten Rankingfaktoren in der gängigen SEO-Theorie. Für Facebook-Signale konnte beispielsweise in beiden Studien eine hohe Korrelation zu den Rankingpositionen gemessen werden, wohingegen der Faktor „Keyword im Title“ bei beiden Studien sogar leicht negativ korreliert. Die meisten SEO-Experten würden sagen, dass das Keyword im Titel-Tag zu den wichtigsten Rankingfaktoren gehört. Wie lassen sich diese Unterschiede erklären?
Wagner: Damit führen Sie die eben angesprochenen sachlogischen Argumente ins Feld, die einer kausalen Interpretation der beobachteten Korrelationen entgegenstehen. Im Fall der Facebook-Signale stellt sich mir die Frage, ob diese das Google-Ranking beeinflussen oder ob nicht umgekehrt eine gute Sichtbarkeit bei Google ebenfalls eine höhere Aufmerksamkeit bei Facebook nach sich ziehen könnte. Somit stellt sich die Frage der Wirkungsrichtung. Zusätzlich muss geprüft werden, ob eine Scheinkausalität vorliegt. Es erscheint ja auch durchaus plausibel, dass eine gemeinsame dritte Variable, wie die Qualität des Contents, für die Beachtung bei Google und Facebook gleichermaßen verantwortlich sein könnte. Die von Experten nicht erwartete schwache Korrelation des Faktors „Keyword im Title“ kann mehrere Ursachen haben: Zum einen misst der Spearman Koeffizient nur monotone Zusammenhänge und es stellt sich die Frage, ob nach dem Google Brand Update Ende 2009 überhaupt noch ein solcher monotoner Zusammenhang besteht. Zum anderen handelt es sich bei „Keyword im Title“ um eine binäre Variable (Keyword vorhanden: ja/nein), was – zurückhaltend formuliert – für die Anwendung der Spearman-Korrelation ungünstig ist. Da die gefundene negative Korrelation zusätzlich sehr klein, d.h. nahe Null ist, muss geprüft werden, inwieweit dies ein zufälliger Effekt ist, und ob sich das negative Vorzeichen mit verändertem Keyword-Set reproduzieren lässt.
SISTRIX: Rand Fishkin schreibt in seinem aktuellen Blogpost, dass er in seiner Studie zumindest teilweise Fehler gemacht und die Korrelationsdaten fälschlicherweise als Rankingfaktoren bezeichnet hat. Wurden die wesentlichen Kritikpunkte jetzt erkannt oder fehlen Ihnen noch wichtige Punkte, die für zukünftige Studien zu berücksichtigen sind? Wie könnte man den bisherigen Untersuchungsansatz verbessern?
Wagner: Aus statistischer Sicht ist es auf jeden Fall begrüßenswert, wenn bei der Präsentation von Korrelationsanalysen der Unterschied zwischen Korrelation und kausalem Zusammenhang aufgezeigt wird, so dass der Leser klar zwischen den Fakten wie der Korrelationsstärke und darauf aufbauenden möglichen Erklärungsansätzen unterscheiden kann. Generell sollte auch der Übergang von univariaten zu multivariaten Analysen und Methoden vollzogen werden, da die in den Studien untersuchten Faktoren ja auch untereinander sehr stark korreliert sind. Erst die gemeinsame Betrachtung aller Faktoren erlaubt es, den Einfluss dieser zusätzlichen Korrelationsstruktur auf die Rankings zu berücksichtigen. Von besonderem Interesse wäre die wiederholte Erfassung der den Studien zugrunde liegenden Daten in entsprechend kurzen Zeitabständen. Anhand solcher Zeitreihen könnte man dann herausarbeiten, inwieweit Schwankungen des als kausal wirkend postulierten Rankingfaktors Schwankungen im Google-Ranking erklären können, oder auch eben nicht. Im letzteren Fall wäre dann die Hypothese des als kausal postulierten Zusammenhangs zu verwerfen und die Scheinkausalität identifiziert. Definiert man ‚kausal‘ zusätzlich dahingehend, dass die kausale Ursache zeitlich vor der induzierten Reaktion liegen muss, bieten solche Daten die Möglichkeit die Wirkungsrichtung des kausalen Zusammenhangs zu bestimmen. Man würde also prüfen, ob eine Änderung der Facebook-Signale einer Änderung der Rankings vorausgeht, oder ob umgekehrt, zuerst die Änderung des Rankings zu beobachten ist.
SISTRIX: Warum ist es so schwer mit statistischen Methoden dem Google-SERP-Algorithmus auf die Schliche zu kommen?
Wagner: Diese Schwierigkeit hat meiner Meinung nach zwei Gründe: Zum einen präsentiert Google ja lediglich die Reihenfolge der Ergebnisse, nicht aber den diesem Ranking zugrunde liegenden ‚wirklichen‘ Abstand zwischen den angezeigten Ergebnissen. Dies stellt aus statistischer Sicht eine starke Einschränkung bzgl. der in Frage kommenden Analyseverfahren dar. Zum anderen ist Google in der Lage das Verhalten der User auf den angesteuerten Ergebnisseiten direkt über Metriken wie Bounce Rate oder Time-On-Site zu messen und zur Beurteilung der Relevanz des Contents zu verwenden. Solange diese Engagement-Daten der statistischen Analyse nicht zur Verfügung stehen, ist es auch nicht möglich ihren Einfluss auf den Algorithmus zu quantifizieren und vom Einfluss anderer Rankingfaktoren zu unterscheiden.
SISTRIX: Vielen Dank für das Interview!
Das Interview führte Hanns Kronenberg