Die Onpage-Projekten in SISTRIX sind ein mächtiges Werkzeug zur Verbesserung deiner Webseite. Um sie optimal auf eine Webseite anzupassen, lassen sich zahlreiche Einstellungen vornehmen. Auf dieser Seite erklären wir alle Einstellungen.
- Projekt
- Name
- Projekt-Umfang
- Onpage-Crawler
- Crawler-Engine
- Crawling-Frequenz
- Crawling-Umfang
- Anzahl gleichzeitiger Crawler
- Login-Daten
- Onpage-Crawler: Experteneinstellungen
- User-Agent (Crawler)
- User-Agent (robots.txt)
- Crawling-Zeitpunkt
- Feste IP-Adresse
- Crawl-Delay
- Autothrottle
- Weitere Startseiten
- XML-Sitemaps
- Weitere URL-Quellen
- Virtuelle robots.txt
- Ressourcen crawlen
- Externe Links crawlen
- URL-Parameter sortieren
- URL-Parameter löschen
- Performance-Überwachung
- Performance-Checks
- Erreichbarkeits-Prüfung
- E-Mail-Alerts
- Verzögerung E-Mail-Alert
- Wettbewerber
- Rankings & Keywords
- Projekt-Sichtbarkeitsindex
- Ranking-Veränderungen
- Keyword-Verwaltung
- Team
- Projekt löschen
Projekt
Hier findest du allgemeine Projekt-Einstellungen. Die Einstellungen in diesem Bereich beziehen sich generell auf das gesamte Projekt und nicht nur auf Teilbereiche.
Name
Der Name, oder auch Projekt-Name, wird innerhalb der Toolbox zur Identifizierung des Onpage-Projektes genutzt. Du findest ihn auf der Projekt-Startseite und auch im Projekt-Dropdown beim Wechsel des Projektes. Du kannst den Projekt-Namen beliebig häufig ändern. Die Änderungen werden sofort übernommen.
Projekt-Umfang
Die Einstellung des Projekt-Umfangs hat grundlegende Auswirkungen auf das gesamte Onpage-Projekt. Hier legst du fest, ob die ganze Domain, eine einzelne Subdomain oder nur ein bestimmtes Verzeichnis in diesem Projekt erfasst werden soll. Diese Einstellung wird sowohl vom Onpage-Crawler für die Onpage-Analyse, als auch vom Keyword-Crawler für die Rankings und an weiteren Stellen verwendet.
- Gibst du eine Domain (Beispiel: sistrix.de) an, werden alle URLs, die zu dieser Domain gehören ausgewertet. Also beispielsweise
https://www.sistrix.de/test
aber auchhttp://old.sistrix.de/old.html
, nicht aberhttps://www.sistrix.com/test
. - Hinterlegst du einen Hostnamen/eine Subdomain (Beispiel: www.sistrix.de), werden nur URLs, die auf dieser Subdomain liegen, erfasst. Es würde also beispielsweise
https://www.sistrix.de/test
, nicht aberhttp://old.sistrix.de/old.html
ausgewertet. - Bei Angabe eine Verzeichnisses (Beispiel: https://www.sistrix.de/news/ – hier ist das Protokoll, also http:// oder https:// anzugeben), werden alle Auswertungen dieses Projektes nur für URLs, die in diesem Verzeichnis liegen, angewendet. So wäre
https://www.sistrix.de/news/test.html
innerhalb des Projekt-Umfangs,https://www.sistrix.de/test.html
jedoch nicht.
Änderungen am Projekt-Umfang werden beim nächsten Durchlauf des jeweiligen Crawlers beachtet. Durch Änderungen kann es dazu kommen, dass deine historischen Projekt-Daten nicht mehr sauber vergleichbar sind, weil nach der Änderung mehr oder weniger Seiten/Rankings erfasst wurden. Es ist ratsam, den Projekt-Umfang nach dem Anlagen des Projektes sorgsam zu setzen und danach möglichst nicht mehr zu ändern.
Onpage-Crawler
Der Onpage-Crawler erfasst regelmäßig deine Webseite. Da jede Webseite anders ist, lassen sich hier besonders viele individuelle Einstellungen festlegen. Für die meisten Webseiten sind unsere Standard-Einstellungen bereits passend. Nimm bitte nur Änderungen vor, wenn es dazu auch einen Anlass gibt.
Crawler-Engine
Hier kannst du auswählen, mit welcher grundlegenden Crawler-Engine das Projekt erfasst werden soll. Du hast folgende Optionen:
HTML-Crawler: Mit dieser Einstellung wird das unverarbeitete HTML wie es der Webserver ausliefert ausgewertet. Es findet kein JavaScript-Parsing statt. Diese Einstellung führt mit Abstand zum schnellsten Crawling und belastet den Webserver auch am wenigsten.
JavaScript-Crawler: Manche Webseiten nutzen JavaScript, um die Seite interaktiver zu gestalten. Da auch der Googlebot mittlerweile aktuelles JavaScript unterstützt, ist das in SISTRIX ebenfalls möglich. So wie Google auch, bauen wir auf einer jeweils aktuellen Version des Google Webbrowser Chrome auf. Aktiviere diese Option, damit dein Projekt künftig mit JavaScript-Unterstützung gecrawlt wird. Das Crawling deines Onpage-Projektes wird durch diese Einstellung in Summe langsamer, da mehr Ressourcen (sowohl im Crawler als auch bei deinem Webserver) beansprucht werden.
Mobile-Crawler: Diese Crawler-Engine baut auf der JavaScript-Engine auf. Nicht nur wird das JavaScript für alle Seiten gerendert, zusätzlich wird der Viewport für den Crawler auf die Bildschirmgröße eines Iphones gesetzt. Manche Seiten spielen je nach Größe des Device unterschiedliche Inhalte und auch interne Verlinkungen aus. Mit dieser Einstellung simulierst du das Mobile-First-Crawling des Googlebot bestmöglich.
Crawling-Frequenz
Mit dieser Einstellung kannst du auswählen, wie häufig der Onpage-Crawler automatisch von uns gestartet werden soll. In der Standard-Einstellung wird die Webseite jede Woche erfasst. Du kannst aber auch einen zweiwöchentlichen oder monatlichen Rhythmus auswählen.
Ein automatisches Crawling häufiger als einmal je Woche ist nicht möglich. Du kannst den Crawler aber jederzeit und beliebig häufig manuell im Projekt starten. Den exakten Crawling-Zeitpunkt kannst du in den Experteneinstellungen festlegen.
Crawling-Umfang
Lege fest, wie viele Zugriffe für dieses Projekt maximal genutzt werden sollen. Der Gesamt-Crawling-Umfang für jedes Onpage-Projekt hängt von dem Paket ab, das du gebucht hast.
Als Zugriff zählt jeder Aufruf einer HTML-Seite, aber auch von Ressourcen wie Bildern, CSS-Files und weiteren, eingebundenen Dateien sowie externe Links.
Anzahl gleichzeitiger Crawler
Um große, umfangreiche Webseiten vollständig zu erfassen, müssen häufig mehrere Onpage-Crawler parallel arbeiten. Hier kannst du einstellen, wie viele Crawler zur gleichen Zeit an deinem Projekt arbeiten dürfen.
Mehr parallele Crawler sorgen zwar dafür, dass das Crawling schneller abgeschlossen wird, haben aber den Nachteil, dass der Webserver stärker belastet wird. Hier musst du zwischen Geschwindigkeit und Webserverlast abwägen. Erkennt der Onpage-Crawler eine Überlastung des Webservers, drosselt er die parallelen Zugriffe automatisch.
Login-Daten
Mit dieser Funktion kannst du Webseiten crawlen lassen, die derzeit noch hinter einem Passwortschutz versteckt sind. Das ist gerade vor Relaunches und ähnlichen großen Änderungen ratsam. So kann die Staging-Umgebung bereits mit dem Onpage-Crawler erfasst werden, bevor sie für Google live geht.
Es sind ausschließlich durch die standardisierte HTTP-Authentifizierung geschützte Webseiten mit dieser Funktion crawlbar. Individuelle Passwortfelder (auf einer HTML-Seite) werden nicht ausgefüllt.
Onpage-Crawler: Experteneinstellungen
Viele der Einstellungen des Onpage-Crawler sind nur in besonderen Fällen nötig: wenn der Webserver anders als üblich konfiguriert ist oder sonstige Sonderfälle einer Ausnahme bedürfen. Hier, in den Experteneinstellungen, findest du diese speziellen Einstellungen. Im Onpage-Projekt musst du diesen Bereich erst aktivieren, um die Experteneinstellungen zu sehen.
User-Agent (Crawler)
Mit dem User-Agent weisst sich der Crawler gegenüber dem Webserver aus. Als Standard nutzen wir diesen User-Agent: Mozilla/5.0 (compatible; Optimizer; http://crawler.sistrix.net/)
. Hier kannst du den genutzten User-Agent für dein Projekt individualisieren. Die Einstellung hat keinen Einfluss auf das Parsen der robots.txt-Datei.
User-Agent (robots.txt)
Dieser User-Agent wird zur Verarbeitung der Crawlinganweisungen in der robots.txt genutzt. Standardmäßig sucht der SISTRIX-Crawler hier nach dem Wort „sistrix“. Durch eine Änderung auf beispielsweise „google“ oder einen eigenen Begriff, kann das Crawlverhalten beeinflusst werden.
Crawling-Zeitpunkt
Stelle ein, zu welchem Zeitpunkt deine Webseite regelnmäßig gecrawlt werden soll. Mit dieser Option kannst du den Crawling-Zeitpunkt gerade bei eher großen und dabei langsameren Webseiten auf die Nachtstunden oder das Wochenende verschieben um die Webserver nicht zu Hochlastzeiten zu belasten. Der Crawler (und damit auch die Zeiteinstellungen im Projekt) beziehen sich immer auf unsere Zeit, also UTC+1.
Feste IP-Adresse
Der Onpage-Crawler wird normalerweise dynamisch aus einem großen Pool verfügbarer Crawlserver ausgewählt. Das hat den Vorteil, dass immer freie Crawlslots verfügbar sind. Dabei wechselt allerdings regelmäßig die IP-Adresse des Crawlers.
Um dies zu verhindern, kannst du hier die Nutzung einer festen IP-Adresse aktivieren. Bei solchen Projekten kann es allerdings zu Verzögerungen in der Abarbeitung von Crawling-Aufträgen kommen.
Crawl-Delay
Mit dem Crawl-Delay kannst du einstellen, dass zwischen den Zugriffen auf deinen Webserver eine Pause eingelegt werden soll. Beachte jedoch bitte, dass durch die Nutzung dieser Option die Crawling-Zeit für das gesamte Projekt stark ansteigen kann. Der Crawling-Durchlauf wird nach Überschreiten eines Zeitlimits von 24 Stunden abgebrochen.
Autothrottle
Bei Aktivierung dieser Funktion drosselt der Crawler sich selber, wenn er merkt, dass die Seite gerade überlastet zu sein scheint. Dadurch verlängert sich eventuell aber die Crawldauer.
Weitere Startseiten
In manchen, besonderen Konfigurationen kann der Onpage-Crawler die richtige Startseite für das Crawling des Projekte nicht selber bestimmen. Das tritt zum Beispiel auf, wenn Nutzer je nach Browsersprache redirected werden.
Mit dieser Option kannst du weitere Startseiten hinzufügen. Diese wird der Onpage-Crawler im ersten Schritt des Crawlings besuchen, um das Projekt vollständig zu erfassen. Als Angabe bieten sich HTML-Sitemaps oder allgemein Seiten mit vielen, internen Links an.
XML-Sitemaps
Mit XML-Sitemaps werden die URLs eines Projektes in einem standardisierten und maschinenlesbaren Format an Webcrawler übertragen. Die meisten Suchmaschinen wie Google oder auch Bing unterstützen diesen Standard.
Der Onpage-Crawler kann ebenfalls auf deine bereits vorhandenen XML-Sitemaps zugreifen. Ist die URL der XML-Sitemap nicht in der robots.txt referenziert, kannst du sie hier explizit angeben.
Weitere URL-Quellen
Neben den auf der Seite selber gefundenen Links, kann der Onpage-Crawler zusätzlich noch weitere URL-Quellen nutzen. Das hat den Vorteil, dass Seiten, die mittlerweile intern nicht mehr verlinkt werden, dabei aber trotzdem noch existieren, erkannt und gecrawlt werden.
Du kannst URLs aus den Google-SERPs, externe Links, Social-Likes oder der Integration der Google Search Console-Daten hinzufügen. Bei der Anbindung der Daten kannst du noch festlegen, welcher Länderindex genutzt werden soll.
Virtuelle robots.txt
Der Onpage-Crawler greift auf die online verfügbare robots.txt-Datei des Projektes zu und hält sich an die dort hinterlegten Regeln. Wir nutzen dafür den gleichen robots.txt-Parser, den auch der Googlebot nutzt.
Wenn du zum Testen Änderungen an deiner robots.txt vornehmen möchtest oder aber für unseren Onpage-Crawler andere Regeln festlegen willst, die so öffentlich nicht zu sehen sind, kannst du das über eine virtuelle robots.txt-Datei in den Einstellungen machen.
Übernehme dafür den Inhalt der gewünschten robots.txt und füge ihn in das Textfeld ein. Der Aufbau der virtuellen robots.txt muss dem der vollständigen, „echten“ Datei mit allen Regeln und Anweisungen entsprechen. Der Onpage-Crawler wird beim nächsten Durchlauf nun diese Regeln und nicht mehr die öffentlich in der robots.txt-Datei hinterlegten Regeln beachten.
Ressourcen crawlen
In der Standard-Einstellungen erfasst der Onpage-Crawler neben dem HTML auch alle Ressourcen der Seite: Bilder, CSS-Dateien und weitere, eingebundene Dateien. So kann geprüft werden, ob diese Dateien vorhanden sind, wie groß sie sind und weitere Prüfungen. Mit dieser Einstellung kannst du das Crawling der Ressourcen deaktivieren.
Externe Links crawlen
Um zu überprüfen, ob externe Links erreichbar sind, folgt der Onpage-Crawler diesen in der Standard-Einstellung. Hier kannst du dieses Verhalten deaktivieren und externe Links nicht crawlen lassen.
URL-Parameter sortieren
URL-Parameter werden vom Onpage-Crawler in den Standard-Einstellungen als Teil der URL behandelt und nicht verändert oder angepasst. Mit dieser Einstellung gibt es die Möglichkeit, URL-Parameter alphabetisch sortieren zu lassen. Duplicate Content, der durch eine uneinheitliche Nutzung von URL-Parametern erzeugt wird, kann so bei der Analyse vermieden werden.
URL-Parameter löschen
Mit dieser Einstellung hast du die Möglichkeit, einzelne URL-Parameter während des Crawlings des Projektes löschen zu lassen. Wie die vergleichbare Funktion in der Google Search Console lassen sich Session-Parameter und vergleichbare URL-Parameter so entfernen. In dem Textfeld muss dazu der Name des Parameters hinterlegt werden.
Performance-Überwachung
Die Webseiten-Performance ist ein Rankingfaktor – seit 2021 berechnet Google die Ladegeschwindigkeit sogar offiziell in die Sortierung der Suchergebnisse ein. Mit der Performance-Überwachung in SISTRIX erhältst du den Überblick über die Performance deiner Webseite.
Performance-Checks
Die Performance-Überwachung in SISTRIX prüft die Ladezeit deiner Webseite inklusive aller Bilder, JavaScript-Dateien und CSS-Files. Wir rufen die Seite dafür mit einem Browser auf und messen, wie viel Zeit für das vollständige Laden notwendig ist. Diese Prüfungen finden sowohl aus Deutschland als auch aus vielen unterschiedlichen Ländern statt. Die Checks können in einem Webanalyse-Tool gemessen werden.
Erreichbarkeits-Prüfung
Die Erreichbarkeits-Prüfung hilft dir dabei, dass deine Webseite nie ohne dein Wissen offline ist. Dafür überprüfen wir die Startseite des Projektes einmal pro Minute auf Erreichbarkeit.
E-Mail-Alerts
Wenn die Erreichbarkeits-Prüfungeinen Fehler findet – sei es, dass dein Projekt offline ist oder aber eine Fehlermeldung angezeigt wird – können wir dich per E-Mail benachrichtigen. Hierfür ist eine aktivierte Erreichbarkeits-Prüfung Voraussetzung!
Verzögerung E-Mail-Alert
Mit dieser Einstellung kannst du konfigurieren, ob du die E-Mail-Benachrichtigung über eine nicht erreichbare Webseite direkt erhalten möchtest oder aber erst nach einer von dir definierten Anzahl von Fehlschlägen. Damit kannst du Fehlalarmierungen vermeiden und vielleicht sogar besser schlafen.
Wettbewerber
Für jedes Onpage-Projekt kannst du bis zu 6 Wettbewerber festlegen. Diese Wettbewerber werden zum Beispiel genutzt, um deinen Projekt-Sichtbarkeitsindex mit ihrem zu vergleichen. Aber auch in anderen Bereichen des Projektes greifen wir auf diese Wettbewerber zurück. Es ist leider nicht möglich, mehr als 6 Wettbewerber zu definieren.
Je nach Eingabe, werden die Wettbewerber als ganz Domain (domain.com), Hostname/Subdomain (www.domain.com) oder als Verzeichnis gewertet (http://www.domain.com/path).
Rankings & Keywords
Keywords, also die in Suchmaschinen eingegebenen Suchbegriffe, sind weiterhin die Basis der Suchmaschinenoptimierung. In den Onpage-Projekten kannst du die Rankings von dir festgelegten Keywords überwachen lassen – in vielen Ländern, Städten, Devices und für unterschiedliche Suchmaschinen.
Projekt-Sichtbarkeitsindex
Hier kannst du festlegen, wie häufig der Projekt-Sichtbarkeitsindex erstellt werden soll. Auch, wenn nur ein Teil der Keywords täglich gecrawled wird, kannst du auf Basis der veränderten Daten trotzdem täglich einen Projekt-Sichtbarkeitsindex erstellen.
Ranking-Veränderungen
Lege fest, ob Ranking-Veränderung in Bezug zum Vortrag oder zur Vorwoche (minus 7 Tage) erstellt werden sollen. Gerade bei vielen täglich gecrawlten Keywords kannst du mit dieser Einstellung schnell wichtige Entwicklungen mitbekommen.
Keyword-Verwaltung
In der Keyword-Verwaltung kannst du die gewünschten Suchbegriffe anlegen, bearbeiten und auch wieder löschen. Auf Basis dieser Keywords werden regelmäßig die Rankings geprüft. Der Projekt-Sichbarkeitsindex und andere Metriken basieren auf diesen Daten. Du hast folgende Einstellungsmöglichkeiten:
- Land – du hast die Auswahl aus mehr als 360 Länder/Sprach-Kombinationen.
- Stadt – über 10.000 relevante Städte stehen dir für lokalisierte Rankings zur Verfügung. Während wir ansonsten landesweite Suchergebnisse erheben, kannst du mit dieser Einstellung lokalisierte SERPs auswerten.
- Device – du kannst die Ergebnisse für den Desktop, das Tablet oder auf Smartphone prüfen.
- Häufigkeit – Hier kannst du einstellen, in welcher Häufigkeit deine Keywords überwacht werden sollen. Je nach Einstellung werden dir unterschiedlich viele SERP-Aktualisierungen berechnet.
- Suchmaschine – neben Google kannst du auch Rankings für Bing, Yahoo und Yandex überwachen.
- Tags – Tags helfen dir, deine Keywords zu organisieren. Auch werden je Tag deine Wettbewerbern analysiert und ein Projekt-Tag-Sichtbarkeitsindex ermittelt.
Team
Im Team gemeinsam an der Verbesserung einer Webseite arbeiten – mit der Teamverwaltung der Onpage-Projekte ist das möglich. Du kannst Rechte für das Bearbeiten aller Funktionen, die Ansicht und die Zustellung von E-Mails vergeben.
Hier kannst du auch externe Nutzer, also Personen ohne eigenen SISTRIX-Account einladen. Sie können die Projekte jedoch nicht selbst bearbeiten, aber ansehen und regelmäßige Update-Mails erhalten.
Projekt löschen
Du kannst deine Onpage-Projekte jederzeit löschen. Beachte bitte, dass sie dann auch gelöscht werden ;-) Alle mit dem Projekt verbundenen Daten wie Keywords, Rankingdaten, Performance-Daten, Onpage-Crawlings werden unwiderruflich von unseren Servern und aus unseren Datenbanken entfernt. Auch sind diese Inhalte danach nicht mehr in bereits erstellten Reports verfügbar.