Die Dokumententypdefinition zu Beginn eines Dokuments gibt an, um welchen Typ von Dokument es sich handelt. Dabei geht es um die Version der Markupsprache, genauer des HTMLs, die verwendet wird. Dadurch weiß der Browser, wie er eine Website korrekt darstellen kann.
Fehlt die Deklaration, ist dies keine Katastrophe, weil viele Browser damit umgehen können. Es kann jedoch zu Fehlern bei der Darstellung führen. Denn wenn eine Doctype-Deklaration fehlt, schaltet der Browser des Besuchers automatisch in den Quirks-Modus um. Es handelt sich dabei um einen Kompatibilitätsmodus, der sicherstellen soll, dass veraltete und ungültige Codes richtig dargestellt werden. Es geht also nicht darum, die Funktion sicherzustellen, sondern die gewünschte Darstellung zu ermöglichen.
Wenn die Dokumenttypdeklaration fehlt, ist es recht unaufwendig, diese nachträglich zu integrieren. Sie wird einfach über dem Head-Element eingefügt.
Seiten ohne HTML-lang-Attribut (und auch ohne hreflang-Attribut) enthalten im Programmiercode keinen Hinweis auf die Sprachversion der Website. Dies kann vor allem in zwei Bereichen Auswirkungen haben: die Suchmaschinenoptimierung und die Nutzung von Screenreadern.
Mit einem Attribut wie beispielsweise würde eine Website anzeigen, dass sie in Deutsch verfasst wurde. Dadurch können Suchmaschinen ableiten, in welchen Sprach- und Ländersuchen diese Website relevant ist. Screenreader können zudem die richtige Aussprache bestimmen.
Wer internationales SEO betreiben möchte, sollte laut Googles John Müller jedoch das lang-Attribut vollständig ignorieren und ausschließlich hreflang als Entscheidungshilfe für Sprachversionen heranziehen. Damit ist es möglich, Verweise auf die jeweils anderen Versionen und auf die Seite selbst im Quellcode zu integrieren und so unmissverständlich anzuzeigen, welche Version sich wo befindet. Der Grund für den geringen Stellenwert des lang-Attributs ist, dass durch das Kopieren von Vorlagen die falsche Verwendung des lang-Attributs häufig ist. Das hreflang-Attribut wird deutlich häufiger richtig angewendet und deswegen von Google beachtet.
Die Zeichencodierung wird in HTML im Header geregelt. Eine Meta-Tag-Angabe weist den Browser auf die richtige Codierung hin:
<meta charset=“UTF-8“>
ist ein klassisches Beispiel für eine sinnvolle Zeichencodierung. UTF-8 (Unicode) hat sich in den letzten Jahren für die globale Zeichencodierung durchgesetzt und gilt inzwischen als Standard. Es ist in den ersten 128 Zeichen deckungsgleich mit ASCII. Dadurch verursacht es einen geringen Speicherbedarf für Englisch und viele westliche Sprachen und kann teils auch in Texteditoren bearbeitet werden, die nicht UTF-8-fähig sind. In Deutschland ist UTF-8 auch deswegen die Standardcodierung. Es gibt jedoch auch Regionen und Anwendungen, in denen komplexere Zeichensätze häufiger genutzt werden, beispielsweise UTF-16.
Warum die richtige Codierung so wichtig ist? Umlaute, Schriftzeichen oder Akzentzeichen werden auf der Website schnell falsch dargestellt. Stattdessen erscheinen dann Fragezeichen, Kästchen oder andere Zeichen, die nichts mit dem ursprünglich gewählten Zeichen zu tun haben. Viele gehen dann dazu über, die Umlaute durch Buchstabencodes zu ersetzen, also den sogenannten benannten Zeichen. Dabei ist dieses Ersetzen nur ein Workaround, das durch die richtige Zeichencodierung unnötig ist. Das Problem: Ist die Zeichencodierung nicht richtig gesetzt, muss der Browser selbst herausfinden, um welche Codierung es sich handelt. Gelingt ihm das nicht, sind Umlaute und Sonderzeichen nicht mehr lesbar. Eine klare Codierung wie UTF-8 ordnet hingegen jedem Unicode-Zeichen ein eindeutige Zeichenkette zu, die bis zu vier Byte lang sein kann. Weiß der Browser, mit welcher Codierung er es zu tun hat, kann er die Zeichen auch problemlos zuordnen und darstellen.
Seiten und Inhalte vor Google zu „verstecken“, ist nicht ganz einfach, weil es für Google viele Wege gibt, eine Seite zu entdecken. Den meisten gelingt es nicht, eine Website vollständig vor Google zu verbergen: Schon ein Link auf einer bei Google indizierten Seite reicht aus, und Google-Bots gelangen auf eine Unterseite. Von dort crawlen sie über interne Links die gesamte Website.
Ausnahmen gibt es natürlich: Datenbanken kann Google beispielsweise nicht besonders gut erfassen. Und auch ab einer gewissen Linktiefe gibt Google auf und zieht seine Crawler wieder ab. Daten, die hinter einem Formular liegen, bleiben für Google ebenfalls unsichtbar.
In der Regel ist das vollständige Verstecken vor Google jedoch auch nicht das Ziel: Es reicht schon aus, wenn die Website nicht über Google auffindbar ist. Weil Google sich durchaus an die Regel hält, die Webmaster den Bots auferlegen, kannst du dies mit 3 Methoden erreichen: Bei zwei von ihnen kann Google die so versteckten Seiten nicht finden.
Disallow
robots.txt als ersten wichtigen Hinweis. Hier kannst du festlegen, welche Unterseiten Google gar nicht erst crawlen soll. Das Unternehmen schickt dahin dann keine Bots und erfasst den Inhalt nicht. Wenn du sichergehen willst, dass deine Inhalte bei Google nicht auftauchen, ist das deswegen die beste Wahl.
Erstelle dafür eine Text-Datei mit dem Namen robots.txt.
In ihr fügst du den folgenden Code ein:User-agent: *
Disallow: \die URL deiner Seite
Mit dem Sternchen hinter „User-agent“ sprichst du alle Suchmaschinen-Bots an. Wenn es dir nur darum geht, Google-Bots von deiner Seite zu verbannen, musst du sie hinter „User-agent“ einzeln benennen. Mit „Googlebot“ hast du allerdings alle abgedeckt. Willst du bestimmte Bots ausschließen, findest du sie wahrscheinlich in der folgenden Liste:
– „Googlebot-Image/1.0“ für die Google-Bildersuche.
– „Googlebot-Video/1.0“ für Videos.
– „Googlebot-Mobile/2.1“ für mobile Geräte.
Mit der Pfadangabe hinter „Disallow“ gibst du die Seiten an, die Google nicht indexieren soll. In diesem Falle wäre es die gesamte Seite. Du kannst allerdings auch Unterordner oder einzelne Seite dort angeben, wenn du nur Teile vor Google verbergen willst.
Hast du alle Angaben gemacht, lädst du die robots.txt in das Hauptverzeichnis deiner URL hoch. Google findet diese dann, aber indexiert die von dir angegebenen Bereiche deiner Seite nicht.
Nutzung von HTML-Tags
Wenn du nicht deine gesamte Website vor Google verbergen möchtest, sondern nur willst, dass Google bestimmte Unterseiten nicht indiziert, ist der noindex-Tag die beste Variante. Du musst dann auf der jeweiligen Seite, im Quelltext einfach den folgenden Meta-Tag einbauen:
<meta name=“robots“ content=“noindex“ />
Allerdings: Während die Disallow-Funktion eine sehr strikte Anweisung an die Crawler von Google ist, ist der noindex-Tag eher eine Art Empfehlung. Google nimmt es also nicht als Verbot wahr, sondern eher als Ratschlag. Deswegen wird noindex in der Regel eher für die Suchmaschinenoptimierung eingesetzt, nicht zum Verhindern der Indizierung. Google findet diese Seiten üblicherweise.
Verbergen der Inhalte über eine Passwort-Abfrage
Wenn du Bereich einer Website oder auch die gesamte Website mit einem Passwort schützt, kann Google die Inhalte auch nicht crawlen. Nachteil: Jeder, der die Website besucht, benötigt dann ein Passwort, um die Inhalte einzusehen. Die Variante ist auch technisch deutlich umständlicher. Wenn du sichergehen willst, dass deine Inhalte vor unbefugten Blicken geschützt sind, ist dies jedoch die beste Wahl. Übrigens: Die meisten SEOs setzen die Log-in-Seite zusätzlich auf Disallow, um sensible Daten zu schützen.
Wenn ein Designer den Text noch nicht zur Verfügung hat, der später an einer bestimmten Stelle eines Magazins oder einer Website stehen soll, benutzt er sogenannte Blindtexte. Es handelt sich also um einen Platzhalter. Mit diesem Platzhalte können Designer die Verteilung des Textes auf der Seite festlegen, den Platzbedarf der Schriftart prüfen und die Lesbarkeit beurteilen.
Buchstaben und auch Wortlängen ziemlich genau der natürlichen lateinischen Sprache. Das sorgt dafür, dass sich der Blindtext und der tatsächliche Text wahrscheinlich optisch nicht zu stark unterscheiden. Und Lorem ipsum ist unverständlich und sinnlos, es handelt sich um eine Verballhornung des Lateinischen. Deswegen wird der Betrachter nicht vom Platzhaltertext abgelenkt. Dies gilt umso mehr, weil Lorem ipsum inzwischen der wohl bekannteste Blindtext in Deutschland ist und Menschen schon nach den ersten zwei Wörtern aufhören zu lesen, wenn sie dem Platzhalter erneut begegnen.
Im Gegensatz zu anderen Blindtexten ist Lorem Ipsum jedoch weniger gut dazu geeignet, Schriftarten zu vergleichen. Hierfür eignen sich „Franz jagt im komplett verwahrlosten Taxi quer durch Bayern“ oder „Fix Schwyz! quäkt Jürgen blöd vom Paß“ (ein echtes Pangramm, das jeden Buchstaben im Deutschen enthält) deutlich besser.