Die Qualität der Suchergebnisse entscheidet über den Erfolg einer Suchmaschine: findet der Suchende wiederholt nur irrelevante Seiten, wird er recht zügig zu einer Suchmaschine wechseln, die ihm bessere Trefferlisten vorsetzt. Neben dem Versuch, die Qualität durch Einstellung der zahlreichen Stellschrauben, sprich Rankingfaktoren, möglichst hoch zu halten, ist eine weitere Vorgehensweise, die Wahrscheinlichkeit, dass deutlich unpassende Seiten angezeigt werden, zu reduzieren. Die – zumindest inoffiziell bestätige – Bevorzugung der Wikipedia in den SERPs kann so damit erklärt werden, dass, auch wenn die Wikipedia-Artikel nicht immer die Besten zum Thema sind, sie nur sehr selten wirklich schlecht sind. Auf eine der Möglichkeiten der Erkennung dieser potentiellen „Problemwebseiten“ möchte ich im Folgenden eingehen.
Wenn man, wie große Suchmaschinen einige Milliarden Seiten im Index hat, bilden sich häufig gewisse Regelmäßigkeiten aus. Weil ich die Daten sowieso gerade in einer Datenbank habe und sie gut als Beispiel dienen können, hier die durchschnittliche Länge des Title-Tags von deutschsprachigen Webseiten:
Gut zu sehen, dass bei einem Großteil der Seiten der Titel zwischen 10 und 130 Zeichen lang ist. Ähnliche Verteilungen bilden sich bei einem Vielzahl weiterer Webseiten-Merkmale aus, einige so simple und einfach zu erkennen wie die Titellänge, aber viele davon auch deutlich komplexer und als Kombination mehrerer Merkmale. So könnten beispielsweise die Anzahl der externen Links in Relation zum vorhandenen Content oder auch die Anzahl der Headlines in Relation zur Textlänge ganz interessante Hinweise liefern.
Wenn bei einer Webseite nun genügend Hinweise vorhanden sind, dass sie nicht dem „Üblichen“, das sich im Web so finden lässt, entspricht, so kann die Suchmaschine diese Seite einer Sonderbehandlung unterziehen und genauer nachsehen, ob es ein harmloser Ausreißer ist oder die Qualität der Seite doch nicht den Vorstellungen der Suchmaschine entspricht. Hört‘ sich jetzt noch recht simpel an, dann baut man seine Seiten eben so, wie die meisten anderen, um nicht aufzufallen. Allerdings leben Suchmaschinen auch nicht mehr davon, hauptsächlich Onpage-Faktoren auszuwerten, sondern zielen sehr stark auf die Linkstrukturen ab und dort wird es erst richtig interessant, doch dazu im nächsten Teil dann mehr.