Duplicate Content – Duplicate Content – Duplicate Content – Langweilig, oder?

Duplicate Content ist schon seit 2005 ein relevantes Thema im Online Marketing. Trotzdem bereitet das Thema vielen Seitenbetreibern noch immer Kopfschmerzen und auch bei unseren Kunden stellen wir immer wieder Probleme mit Duplicate Content (DC) fest. Zeit also das Thema einmal umfassend zu beleuchten.

Fangen wir mit einer kurzen Definition an: Duplicate Content meint längere Textpassagen, die sich genau gleich oder sehr ähnlich mehrfach im Internet wiederfinden. Dabei ist es egal, ob die Inhalte sich innerhalb einer Domain doppeln, oder auf verschiedenen Webseiten gefunden werden.

I. Warum ist Duplicate Content ein Problem?

Stell dir vor du googelst „Ameisen im Haus vertreiben“, weil du, wie ich gerade, von einer Ameisenplage heimgesucht wirst. Du klickst die erste Seite an, liest den Artikel und kehrst zurück zu Google, um den zweiten Artikel zum Thema zu lesen. Leider ist er mehr oder minder nur eine Kopie vom ersten. Beim dritten, vierten und fünften Artikel sieht es genauso aus. Blöd!

Wir Menschen wollen zu einem Thema gerne mehrere Meinungen lesen, um uns darauf basierend eine eigene Meinung bilden oder eine Entscheidung treffen zu können. Wir wollen einzigartigen Content (Unique Content) aus verschiedenen Quellen und von verschiedenen Autoren mit verschiedenen Rechercheansätzen und Präferenzen lesen. Folglich würdigen wir Webseiten, die gute Inhalte publizieren, welche in der Form nirgendwo anders zu finden sind. Das weiß auch Google.

Daher bemüht die Suchmaschine sich sehr darum, DC als solchen zu erkennen, um inhaltlich möglichst verschiedene Ergebnisse auf der Suchergebnisseite (SERP) anzuzeigen. Zurück zum Ameisenbeispiel: Der Nutzer, ich, will eben nicht 5 Mal hintereinander dieselben Tipps lesen, sondern möglichst viele verschiedene.

Darum ist DC schlecht für deine Seite:

  • Wenn deine Seite nur Inhalte anzeigt, die es woanders auch gibt, ist sie für den Nutzer langweilig
  • Wenn dein Blog 10 sehr ähnliche Artikel zum selben Thema hat, dann sind 9 davon überflüssig für den Nutzer
  • Wenn Google erkennt, dass du keine eigenen Inhalte erschaffst, sondern nur kopierst, dann bekommt deine Seite keine Besucher geschickt. Lass dir das von Matt Cutts erklären, dem ehemaligen Chef des Webspam-Teams bei Google:

II. Wie entsteht Duplicate Content?

Bei dem Thema DC denken die meisten Leute sofort an fiese Plagiatoren, die einem die mühevoll erstellten Inhalte klauen, um damit ihre osteuropäischen Geisterblogs zu füttern. Meist sind die Gründe für doppelte Inhalte allerdings deutlich trivialer und können vor allem von dir selbst aus der Welt geschafft werden.

1. Unsauberes technisches Setup

„Know thy Enemy“, empfahl uns Sun Tzu bereits 500 vor Christus. Dem kann ich nur zustimmen und entsprechend sinnvoll ist es, sich ein wenig mit der Funktionsweise von Google auseinanderzusetzen. Dabei hilft einem zum Beispiel Google selbst, oder die sehr guten Posts von moz.com und dem Affenblog.

In unserem Fall ist vor allem eines wichtig: Jede einzelne URL ist für Google ein einzigartiges Dokument, das einzeln betrachtet wird. Oft zum Beispiel ist ein Blog Post über folgende URLs erreichbar:

  • http://www.mein-blog.de/kategorie/mein-einzigartiger-blogpost
  • https://www.mein-blog.de/kategorie/mein-einzigartiger-blogpost/
  • http://mein-blog.de/kategorie/mein-einzigartiger-blogpost
  • http://www.mein-blog.de/kategorie/mein-einzigartiger-blogpost?sessionID=237r67c
  • http://www.mein-blog.de/alternative-kategorie/mein-einzigartiger-blogpost
  • http://www.mein-blog.de/kategorie/mein-einzigartiger-blogpost?replytocom=187

Für Google sind das 6 Dokumente und massiv Duplicate Content. Worauf genau du beim Aufsetzen einer Seite achten musst, kannst du weiter unten nachlesen.

2. Viele ähnliche Inhalte

Wirklich einzigartige Inhalte kann man dauerhaft nur erstellen, wenn man Themen klar gegeneinander abgrenzt. Nehmen wir checkdomain. Wir könnten im Blog hunderte Beiträge schreiben zu den Themen „Domain registrieren“, „Domain sichern“, „Internetadresse kaufen“, „Webadresse checken“ und so weiter. Aber wären diese Artikel trennscharf und jeder für sich lesenswert? Ich zumindest würde mich schwer tun einen Beitrag zum Thema „Domain registrieren“ zu schreiben und danach einen völlig anderen, auch interessanten Artikel zum Thema „Internetadresse sichern“.

Also, trenne Themen auf deiner Seite möglichst klar voneinander ab und erstelle ein Dokument pro Thema. Neben der reinen DC-Thematik gibt es hier noch einen weiteren Hintergrund: Findet Google auf deiner Domain 10 Seiten, die alle für eine Suche relevant sind, weiß es nicht, welche Seite es auf der Ergebnissseite präsentieren soll. Naja, und im Zweifel eben keine.

3. Plagiarismus

Ja, leider ist auch der gute, alte Content-Klau (Scraping) ein Grund für doppelte Inhalte. Mehr zum Thema Scraping und was man dagegen tun kann, hat kissmetrics in seinem Blog gut zusammengefasst. Natürlich kann man Content-Diebe auch direkt bei Google melden. Die entsprechenden Formulare findest du hier und hier.

Tipp: Wenn du selber einmal einen Artikel findest, der so gut ist, dass du ihn gerne kopieren würdest, dann schreibe einfach einen „evil twin“. Wenn der Original-Beitrag zum Beispiel ein „how to …“-Post ist, dann schreibst du einen „how not to“-Post. Basiere deinen Post auf derselben Recherche und demselben Konzept, aber nutze andere Beispiele und eine andere Gliederung. So wird dein Post zwar ähnlich, aber einzigartig.

III. Hands-On: So vermeidest du DC-Probleme

Wie bereits erwähnt ist es erst einmal wichtig wirklich einzigartigen Content zu erstellen und möglichst Trennscharf einzelne Dokumente zu einzelnen Themen zu publizieren. Außerdem solltest du dir am Besten direkt wenn du ein Projekt startest überlegen, wie die URL-Struktur der Seite aussehen soll. Folgende Fragen sind dabei wichtig:

  1. Läuft die Seite über eine sichere SSL-Verbindung (https), oder über eine normale http-Verbindung?
  2. Soll die Seite mit „www.“ oder ohne erreichbar sein?
  3. Wie sollen die URLs enden? Typisch sind entweder eine Dateiendung (.php, .html), ein „Trailing Slash“ oder einfach ohne alles.
  4. Welche dynamischen Parameter braucht die Seite unbedingt in der URL? Zum Beispiel: Kann ich Produkte in meinem Shop mit Ajax sortieren, oder muss ich im Falle einer Sortierung auf eine dynamische URL mit zum Beispiel „?sort=price“ am Ende weiterleiten? Müssen Session IDs unbedingt an der URL „kleben“ oder reicht es im Cookie?

Mit Hilfe dieser Fragen legst du die Standardform deiner URLs fest, zum Beispiel https://www.meine-domain.de/kategorie/titel-der-seite/. Wichtig ist dann, dass du interne Links immer auf die korrekte Version setzt und alle anderen URLs auf diese Version weiterleitetest, also im Beispiel:

  • wenn eine URL mit http aufgerufen wird immer auf die entsprechende https URL weiterleitest;
  • wenn eine URL ohne www. aufgerufen wird immer auf die entsprechende URL mit www. weiterleitest;
  • wenn eine URL ohne trailing slash aufgerufen wird immer auf die Version mit slash am Ende weiterleitest.

Wie du diese Weiterleitungen erstellst und worauf du dabei achten musst, kannst du bei Dr. Web nachlesen.

Manchmal allerdings gibt es Fälle, bei denen DC nur schwer oder gar nicht zu vermeiden ist. Zum Beispiel ein Webshop, der in einer Kategorie 100 Produkte hat, auf der Kategorieseite aber nur 20 anzeigt und also eine Paginierung braucht (…de/kategorie/page2/). Auch dafür gibt es natürlich Lösungen.

Seiten aus dem Index nehmen

Diese Lösung hilft zwar nicht uns armen Menschen, die wir auf schuhladen.de/sneaker/ denselben Text lesen müssen, wie auf schuhladen.de/sneaker/page2 und schuhladen.de/sneaker/page3, aber immerhin kann man der Suchmaschine den Aufwand ersparen denselben Inhalt mehrfach zu indexieren. Mehrere Wege führen hier zum Ziel:

1. robots.txt

Die robots.txt ist eine Datei, die normalerweise im Root-Verzeichnis einer Webseite liegt. In ihr wird festgelegt, welche Crawler auf welche Dokumente zugreifen dürfen. Standardmäßig enthält die Datei folgende Zeilen:


User-agent: *
Allow: /

Das heisst, dass alle Crawler (=user-agents) alle Inhalte crawlen dürfen. Wenn du jetzt zum Beispiel dem Google-Bot verbieten willst die Suchergebnisseiten deiner WordPress-Installation zu crawlen, dann verändere die robots.txt einfach wie folgt:


User-agent: Googlebot
Disallow: /?s=

Ausführliche Informationen zur Konfiguration der robots.txt findest du hier.

2. noindex Meta Tag

Meta Elemente sind Tags, die generelle Informationen über ein Dokument verraten. Zum Beispiel wer es geschrieben hat (rel=“Author“), worum es geht (<meta name=“description“ content=“Darum geht es hier.“>) und ob Suchmaschinen es indexieren dürfen. Genau das kannst du nämlich verhindern, wenn du im header deiner Seite folgendes erwähnst:


<meta name="robots" content=" <noindex> ">

Somit wird die Seite zwar gecrawlt, taucht aber nicht im Index auf und zählt auch nicht als Duplicate Content. Einen Überblick über weitere mögliche Werte für das robots Meta Tag findest du bei Yoast.

3. Google Search Console

Die Google Search Console (ehemals „Webmaster Tools“) ist ein kostenloser Service von Google, der es Seitenbetreibern erlaubt das Ranking der eigenen Seite zu beobachten und einige Einstellungen vorzunehmen. Jeder, der eine Webseite betreibt, sollte diese dort angemeldet haben.

Mit Hilfe der Search Console können einzelne URLs vorübergehend aus dem Index entfernt werden. Außerdem kann festgelegt werden, wie sich URL-Parameter auf die Seite auswirken. Willst du Google zum Beispiel erzählen, dass der Parameter ?sort= an deinen URLs den Seiteninhalt nur sortiert und diese URLs nicht im Index auftauchen sollen, dann sieht das wie folgt aus:

Ein Screenshot aus der Google Search Console der zeigt, wie man einen Parameter (sort) ausschliesst

Gerade für Webshops, die nicht mit Ajax funktionieren, ist das ein sehr einfacher Weg URLs mit Parametern wie sort, order, limit, page, search, filter usw. aus dem Index zu entfernen. Mehr zur Google Search Console kannst du hier nachlesen oder hier als Video nachschauen.

Eine Seite als „Haupt-“ Version festlegen (canonical)

Wir hatten ja weiter oben schon das Beispiel mit dem online Schuhladen und seiner paginierten Sneaker-Kategorie. Neben der Lösung die Seiten 2 bis X aus dem Index zu entfernen, gibt es die Möglichkeit einen Tag zu setzen, der Google mitteilt, dass diese Seiten lediglich Duplikate einer Ursprungsseite sind. Im Header der Seite schuhladen.de/sneaker/page2 würde das so aussehen:


<link rel="canonical" href="https://www.schuhladen.de/sneaker/" />

Somit landet nur die Ursprungsseite im Index. Die Folgeseiten verweisen auf diese.

Tipp: Setze den Canonical-Tag auf jeder deiner Seiten, auch wenn er auf sich selbst zeigt. Auch wenn mal ein Fehler passiert und zum Beispiel Seiten doch mit und ohne www. erreichbar sind, ist Google so immer klar, welche Version der Standard ist.

Empfehlung: Wenn du doppelte Inhalte nicht vermeiden kannst, ist der Canonical-Tag der beste Weg, damit umzugehen. Denn anders als beim Ausschluss von Seiten via noindex oder der robots.txt, werden dem Crawler hier keine Seiten vorenthalten, sondern er wird lediglich in die richtigen Bahnen gelenkt. Somit fällt zum Beispiel auch ein eingehender Link auf schuhladen.de/sneaker/page2 nicht weg, sondern zahlt auf das Ranking von schuhladen.de/sneaker/ ein.

Das Tag funktioniert übrigens auch über Domains hinweg. Wenn du also zum Beispiel einen Gastbeitrag in einem anderen Blog schreibst, diesen aber unbedingt auch in deinem Blog posten möchtest, dann setze in deinem Blog einen canonical, der auf die andere Domain zeigt. Mehr zum richtigen Einsatz des Canonical-Tags kannst du hier nachlesen (dort wird übrigens von der Verwendung des canonical Tags auf paginierten Seiten abgeraten. Ansichtssache. :)

IV. Hilfreiche Tools

Jetzt hast du schon einiges über Duplicate Content gelesen, wie man ihn vermeidet und was man tut, wenn man ihn nicht vermeiden kann. Stellt sich bei bestehenden Projekten natürlich die Frage: Habe ich aktuell ein Problem mit Duplicate Content? Um genau das herauszufinden, gibt es eine Vielzahl von Tools, die ich hier kurz vorstellen will.

1. SEO Spider Tool

Ein Screenshot der SEO Spider Tools. Es ist zu sehen wie man doppelte H2 Tags erkennt

Neben vielen anderen Features kann das SEO Spider Tool von Screamingfrog sehr schnell doppelte Inhalte auf deiner Seite finden. Für bis zu 500 URLs ist das Tool kostenlos und wird, als Desktop Tool, auf deinem Rechner installiert. Das Tool gibt es in Versionen für Mac, Windows und Linux. Nach einem ersten Crawl kannst du direkt sehen, wo es doppelte Title, Description, h1 oder h2 Tags gibt – ein deutliches Indiz für Duplicate Content – und die Fehler beheben. Das Tool ist definitiv empfehlenswert!

2. Copyscape

Screenshot von Copyscape mit einem Ergebnis

Copyscape ist die Anlaufstelle um Content-Diebstahl festzustellen. Nach Eingabe einer deiner URLs in die Suchmaske kannst du direkt sehen, ob jemand deine Inhalte geklaut hat und wo sie noch zu finden sind.

Einen ähnlichen Ansatz verfolgt das Chrome Plugin Similar Pages von Google. Es zeigt dir für die aktuell im Browser angezeigte Seite an, welche ähnlichen Seiten dazu existieren. Weitere Dienste in diese Richtung sind Plagium und CopyGator.

3. OnPage.org

Screenshot von onpage.org auf dem man doppelte Inhalte von checkdomain sieht

Hier geht es wieder darum doppelte Inhalte auf der eigenen Domain zu finden. Anders als die SEO Spider Tools muss hier aber nichts installiert werden, da es sich bei OnPage.org um eine Online-Suite handelt. OnPage.org ist ein sehr mächtiges SEO-Werkzeug und bis 100 URLs und mit einem Crawl im Monat kostenlos. Anders als bei den SEO Spider Tools werden hier nicht nur doppelte Tags, sondern auch doppelte oder auch nur ähnliche Inhalte erkannt. OnPage geht damit noch einen Schritt weiter und ist, auch weil das Tool trotz der vielen Funktionen noch einfach zu bedienen ist, klar zu empfehlen.

Über den Autor

Autorenbild Torge Kahl
Der Stadtgärtner. Analytisch durchkämmt er den wilden Garten des World Wide Web und sät das Checkdomain-Saatgut an den richtigen Stellen aus. Und manchmal bloggt er auch zu seinen Themen: SEO, SEA, E-Mail und generell Online Marketing.

Bildquelle: 123rf.com / Chris Dorney

Rating: 5.0/5. Von 4 Abstimmungen.
Bitte warten...

Ein Gedanke zu „Duplicate Content – Duplicate Content – Duplicate Content – Langweilig, oder?

  1. Here is another great plagiarism checker – https://noplag.com. It provides very accurate results and checking takes just a few seconds, the checking algorythm is unique and detects even smallest bits of similaraties.

Schreibe einen Kommentar

Die von Ihnen hier erhobenen Daten werden gemäß unserer Datenschutzerklärung zur Veröffentlichung Ihres Kommentars in unserem Blog verarbeitet.