Nachdem die großen Drei sich auf ein Sitemaps-Format geeinigt haben, ist es an der Zeit, Projekte darauf umzustellen. Das XML-Schema von Sitemaps.org ist eine Weiterentwicklung von Google Sitemaps. Es werden reine Textdateien im XML-Format erzeugt. Die Datei muss den UTF-8-Zeichensatz haben. Eine typische Sitemaps-Datei sieht so aus:
<?xml version="1.0" encoding="UTF-8"?>
<urlset xmlns="http://www.sitemaps.org/schemas/sitemap/0.9">
<url>
<loc>http://www.example.org/</loc>
<lastmod>2006-11-12T13:19:21+01:00</lastmod>
<changefreq>monthly</changefreq>
<priority>0.8</priority>
</url>
</urlset>
Die erste Zeile ist ein typischer XML-Header und legt den Zeichensatz auf UTF-8 fest. Innerhalb des urlset werden nun die einzelnen URLs aufgeführt. Dazu muss für jede URL der Tag <url> geöffnet und mit </url> wieder geschlossen werden.
<loc> ist als einziger Tag innerhalb von <url> zwingend vorgeschrieben. Er legt die URL fest. Wichtig ist hierbei, dass bestimmt Zeichen innerhalb der URL escaped werden müssen. Diese Zeichen sind &, ', ", > und <. Sie müssen jeweils durch ihr HTML-Equivalent ersetzt werden.
<lastmod> ist die Zeit der letzten Änderung an der Datei. Die Angabe kann den Suchmaschinen helfen, nicht geänderte Dateien beim Crawlern auszulassen und somit sowohl den Suchmaschinen als auch Seitenbetreibern Traffic sparen. Das Format der Angabe ist ISO 8601. Wenn die Sitemaps mit PHP erzeugt werden, kann dafür das Format „c“ benutzt werden (echo date(‚c‘, getlastmod($file));)
<changefreq> kann die folgenden Werte annehmen: always, hourly, daily, weekly, monthly, yearly, never. Always sollte benutzt werden, wenn die Seite bei jedem Besuch des Crawlers einen neuen Inhalt hat wie beispielsweise bei Zufallszitaten. Never ist für Archivseiten vorgesehen. Die Angabe ist nur eine Empfehlung an die Suchmaschinen, wie oft die Seite gespidert werden soll, jedoch nicht verbindlich und wird von den Suchmaschinen unterschiedlich gehandhabt.
<priority> ist ein Wert zwischen 0.0 und 1.0 und legt die relative Priorität der betreffenden Seite in Bezug zu den anderen Seiten der Sitemap fest. Die Angabe hat keine Auswirkung auf die SERPs.
Die Maximalgröße einer Sitemaps-Datei beträgt 10 Megabyte (10,485,760 bytes) oder 50.000 URLs. Die Sitemap darf auch per Gzip komprimiert werden, die 50.000 URLs jedoch nicht überschreiten. Haben Sie Projekte, die diese Höchstzahl überschreiten, so kann eine Index-Sitemap angelegt werden. In dieser wird auf maximal 1000 weitere Sitemaps verwiesen, die jeweils 50.000 URLs enthalten dürfen.
Um Suchmaschinen über aktualisierte Sitemaps zu informieren, ist im Protokoll vorgesehen, eine Schnittstelle der Suchmaschinen zu „pingen“. Bislang hat allerdings nur Google diese Möglichkeit umgesetzt. Für den „Ping“ rufen Sie folgende Adresse auf: www.google.com/webmasters/sitemaps/ ping?sitemap=http%3A%2F%2Fwww.example.org%2Fsitemap.xml – Google wird den HTTP-Antwortcode 200 zurückgeben und damit bestätigen, dass die Sitemap korrekt erkannt wurde.