Yandex Code-Leak legt Rankingfaktoren offen

Ein ehemaliger Yandex-Mitarbeiter hat den Quellcode der Suchmaschine und weiterer Dienste geleaked. Das ermöglicht interessante Einblicke in das Innenleben der Suchmaschine: Rankingfaktoren, Gewichtungen und mehr.

Yandex ist Suchmaschinen-Marktführer in Russland und nach Seitenaufrufen weltweit auf Position fünf. Zwar ist Yandex nicht Google, die grundlegenden Funktionsweisen von Suchmaschinen sind jedoch vergleichbar. Die folgenden Erkenntnisse sind nicht zwingend direkt auf Google zu übertragen, geben aber doch einen interessanten Einblick:

Im Quellcode ist eine umfangreiche Liste mit 1.922 unterschiedlichen Ranking-Faktoren zu finden. Da jedoch 999 dieser Rankingfaktoren mit dem Tag TG_DEPRECATED, 242 mit TG_UNUSED, 149 mit TG_UNIMPLEMENTED und 115 mit TG_REMOVED versehen sind, bleiben noch 417 aktive Rankingfaktoren übrig – noch einige mehr als die rund 200, die bei Google bislang vermutet wurden.

Wie Google bereits bestätigt hat, nutzt auch Yandex je nach Suchanfrage unterschiedliche Algorithmen und Gewichtungen. So wird beispielsweise nach Uhrzeit unterschieden: es gibt Morgen- und Abendgewichtungen (IND_FI_MORNING_QUERY), aber natürlich auch Unterschiede für Erwachsenenunterhaltung (IND_FI_XPORNO_QUERY), kommerzielle Abfragen (IND_FI_QUERY_COMMERCIALITY_MX) und vieles mehr.

Eine initiale Liste mit Gewichtungen der Rankingfaktoren (nav_linear.h), deutet darauf hin, dass die wichtigsten Rankingsignale für Yandex in diesen vier Bereichen zu finden sind:

  • Links: Wie Google nutzt Yandex einen PageRank-Algorithmus, um die Qualität von Links zu bewerten. Linktexte sind wichtig, das Alter des Links ebenfalls.
  • Nutzersignale: Google streitet es ab, bei Yandex zeigt der Quellcode eindeutig, dass Nutzersignale ein Rankingfaktor sind. Werte wie die CTR, Time on Site, Bouncerate und Anzahl der in die SERPs zurückkehrenden Besucher beeinflussen bei Yandex das Ranking.
  • Relevanzbewertungen der Textinhalte: Der Klassiker von Suchmaschinen ist natürlich auch dabei. Yandex setzt dabei hauptsächlich auf BM25, einem bekannten Ansatz aus dem Information Retrieval. Weitere Klassiker wie die Prüfung, ob das Keyword in der URL enthalten sind, lassen sich ebenfalls finden.
  • Trust- und Qualität: Für sensible Themen wie Gesundheits- und Finanzinhalte setzt Yandex ebenso wie Google höhere Qualitätserfordernisse an. So gibt es alleine für Medizinthemen 7 unterschiedliche Rankingfaktoren (FI_MEDICAL*)

    Viele der Vermutungen zu Google-Rankingfaktoren finden sich im Quellcode von Yandex wieder. Das ist zwar keine Bestätigung, dass Google diese auch nutzt, aber ein gutes Indiz. So bewertet Yandex Inhalte, die auf Wikipedia.org veröffentlicht werden, generell besser als andere Inhalte. Auch wirken sich Serverfehler (400er/500er-Statuscodes) negativ auf das Ranking aus. Wie von Google bekannt, bewertet auch Yandex HTTPS-Verschlüsselung und Geschwindigkeit positiv.

    In Summe bietet der Yandex Code-Leak einen sehr interessanten Einblick in das Innenleben einer modernen Suchmaschine. Zwar lassen sich nicht alle Erkenntnisse direkt auf Google übertragen, viele Vermutungen der letzten Jahre zur generellen Funktionsweise großer Internetsuchmaschinen bestätigen sich jedoch. Ich gehe davon aus, dass der SEO-Branche noch einige interessante Wochen mit neuen Erkenntnissen bevorstehen.

    Ähnliche Beiträge