Eine der umfangreichsten und aktuellsten Link-Datenbanken aufbauen – das ist unser Ziel. Dafür setzen wir auf einen hybriden Ansatz aus eigenen und externen Daten. Dennoch werden wir nie alle Links finden können – woran das liegt, erklären wir in diesem Artikel.
Das Internet ist riesig und sehr dynamisch: Links, die heute noch existieren, können morgen verschwunden sein. Daher kann kein Dienst der Welt ein komplettes Abbild des „Internets“ schaffen, nicht einmal Google selbst.
Daher kann es immer passieren, das Links in dem einen Tool angezeigt werden, in einem anderen jedoch nicht. Das kommt darauf an, wie diese Daten erhoben werden.
Datenmenge & Volatilität
Viele Links kommen täglich hinzu und verschwinden wieder. Daher wird unsere Datenbank fortlaufend aktualisiert. Große Seiten, wie Wikipedia.org, werden sogar über mehrere Sitzungen hinweg erfasst. Dementsprechend kann es hierbei beispielsweise dazu kommen, dass ein neuer Link erst nach einigen Tagen in unserer Linkdatenbank auftaucht.
Große Seiten
Domains mit vielen URLs erfassen wir oft nicht auf einmal. Wenn wir eine Seite nicht in einer Sitzung komplett crawlen können, setzen wir den Crawl bei der nächsten Gelegenheit fort. Da der Wert einzelner Links abnimmt, je mehr Verweise von einer einzigen Domain stammen, konzentrieren wir uns darauf, Links von möglichst vielen verschiedenen Domains in unsere Datenbank aufzunehmen. Statt also ein Register möglichst schnell vollständig zu erfassen, priorisieren wir zunächst das Crawlen weiterer Seiten.
Aktualisierungszyklus
Um unsere Daten immer möglichst umfangreich und vor allem aktuell zu halten, prüfen wir alle bekannten Links mindestens einmal alle zwei Monate. Neue Links erfassen wir im Rahmen unserer Crawls und beziehen zusätzliche Daten aus externen Quellen wie Majestic SEO mit ein.
Auch wenn wir nicht alle Links finden können – wie gesagt, das kann niemand – sind wir durch die Priorisierung von Links von Domains mit einem hohen Sichtbarkeitsindex sicher, alle wichtigen Links zu erkennen und auszuweisen. Vollständigkeit kann niemand garantieren, aber wir bemühen uns, in den Punkten Relevanz und Aktualität eine der besten Link-Datenbanken anzubieten.