Handelt es sich um Duplicate Content, wenn Inhalte sowohl als HTML-Seite als auch im PDF-Format verfügbar gemacht werden? Wir zeigen dir, worauf es ankommt.
HTML und PDF = Duplicate Content?
Technisch gesehen handelt es sich dabei um internen Duplicate Content. Externer Duplicate Content hingegen entsteht beispielsweise, wenn in einem Onlineshop bei jedem Produkt das Benutzerhandbuch des Herstellers als PDF-Dokument zum Download hinterlegt wurde, welches auch auf der Website des Herstellers – und vermutlich auch in anderen Onlineshops – angeboten wird.
Google sagt, dass sie im Falle des internen Duplicate Content meistens die HTML-Variante bevorzugen und in den Suchergebnisse ausspielen. Tritt dieser Fall nicht allzu häufig auf deiner Website auf, brauchst du dir in der Regel auch keine großen Gedanken darüber zu machen.
Sollte Google z.B. in der Google Search Console (GSC) eine Duplicate-Content-Warnung unter dem Menüpunkt „HTML-Verbesserungen“ anzeigen, kannst du das PDF-Dokument durch einen Eintrag in der robots.txt sperren und somit dem Google-Bot das Crawlen der Datei verbieten.
- Beachte jedochbitte: Eine mittels robots.txt gesperrte URL kann in den Suchergebnissen auftauchen
Alternativ kannst du das PDF-Dokument auch mittels dem x-robots-Tag im HTTP-Header von der Indexierung ausschließen, oder per Canonical auf die HTML-Version verweisen.
- Zum NoIndex im X-Robots-Tag im HTTP Header: https://developers.google.com/search/docs/advanced/robots/robots_meta_tag?hl=de
- Zum rel=“canonical“ im HTTP Header: https://developers.google.com/search/blog/2011/06/supporting-relcanonical-http-headers
Für den Fall des oben beschriebenen externen Duplicate Contents empfiehlt es sich, den rel=“canonical“-Verweis im HTTP-Header des PDF-Dokuments mit Ziel der Hersteller- bzw. Quellwebsite zu verwenden.
Sollen PDF-Dokumente wirklich gecrawlt und indexiert werden?
Stell dir immer bei der Verwendung von PDF-Dokumenten auf deiner Website die Frage, ob du primär mit diesen PDF-Dateien ranken möchtest. Wenn nicht, solltest Du unter der Berücksichtigung des Crawling-Budget & Index-Budget deiner Website diese Dateien von der Indexierung durch den Google-Bot ausschließen.
Was sagt Google?
Du brauchst dir bei dieser Form des Duplicate Contents keine Sorgen machen, selbst, wenn du denselben Inhalt des PDFs auf einer HTML-Seite anbietest. Wenn wir entsprechenden Duplicate Content erkennen, spielen wir ohnehin nur eine URL aus; deine Website muss dadurch keine Nachteile fürchten.
Quelle: John Mueller