Duplicate Content

Was ist Duplicate Content?

Der Begriff bezeichnet Inhalte, die unter mehreren verschiedenen URLs identisch oder nahezu identisch erscheinen, entweder innerhalb einer Domain oder auf verschiedenen Websites. Google beschreibt doppelte Inhalte als umfangreiche inhaltliche Blöcke, die sich in erheblichem Ausmaß überschneiden. Ob das durch technische Unachtsamkeit oder Absicht passiert, spielt für die Auswirkung auf die Indexierung keine Rolle.

Duplicate Content ist keine direkte Strafe, die Google verhängt. Das eigentliche Problem ist die Unsicherheit, die er erzeugt: Welche Version einer Seite soll gecrawlt, indexiert und in den SERPs angezeigt werden? Diese Unklarheit kostet Ressourcen und schwächt Ranking-Signale.

Wie entsteht Duplicate Content?

Die meisten Fälle entstehen nicht durch Absicht, sondern durch technische Gegebenheiten. Wenn am Ende einer URL kein Trailing Slash gesetzt oder konsequent weggelassen wird, ist dieselbe Seite sowohl mit als auch ohne Schrägstrich aufrufbar und landet damit unter zwei verschiedenen Adressen mit identischem Inhalt. Fehlende Weiterleitungen zwischen HTTP und HTTPS oder zwischen www und non-www führen zum selben Ergebnis. Tracking-Parameter, Session-IDs sowie Filter- und Sortieroptionen in Online-Shops können eine einzige Seite auf Dutzende oder Hunderte von URL-Varianten aufblähen.

Auf redaktioneller Ebene passiert Duplicate Content, wenn Produktbeschreibungen unverändert vom Hersteller übernommen, Artikel ohne Anpassung auf mehreren Portalen syndiziert oder Seiten beim CMS-Relaunch versehentlich doppelt angelegt werden. Auch der Einsatz von Hidden Content kann das Problem verschärfen, wenn Crawler versteckte Inhalte separat indexieren. Die folgende Tabelle gibt einen Überblick über die häufigsten Auslöser:

Die häufigsten Ursachen im Überblick

Ursache	Konkretes Beispiel
URL-Variationen durch Parameter	example.com/produkt und example.com/produkt?color=blau werden separat gecrawlt
Trailing Slash	example.com/kategorie und example.com/kategorie/ als zwei separate Seiten indexiert
HTTP vs. HTTPS	Seite ohne SSL-Weiterleitung bleibt unter http:// erreichbar
WWW vs. non-WWW	www.example.com und example.com zeigen identischen Inhalt
Session-IDs in URLs	Shop generiert für jeden Besucher eine eindeutige URL mit Sitzungskennung
Syndizierter Content	Gastbeitrag erscheint identisch auf drei verschiedenen Portalen
Kopierte Herstellertexte	Produktbeschreibung des Herstellers unverändert auf 50 Shop-Seiten
Druckversionen	example.com/artikel und example.com/artikel/print mit identischem Text
CMS-Duplikate	Kategorie- und Tag-Seiten listen identische Beiträge auf

Wie lässt sich DC erkennen?

Für die Erkennung von DC gibt es je nach Anwendungsfall unterschiedliche Ansätze. Welches Tool oder welche Methode sinnvoll ist, hängt davon ab, ob Sie internen oder externen Duplicate Content aufspüren möchten. Während interne Duplikate sich gut mit Crawling-Tools wie Screaming Frog oder Siteliner identifizieren lassen, braucht es für externen Contentklau spezialisierte Dienste, die das gesamte Web nach identischen Textpassagen durchsuchen. Darüber hinaus gibt es einfache manuelle Methoden, die ohne Tool-Zugang einen schnellen ersten Eindruck liefern.

Screaming Frog

Dieser Crawler listet alle URLs einer Domain auf und markiert Seiten, deren Inhalte, Title-Tags oder Meta-Descriptions in erheblichem Ausmaß übereinstimmen. Duplikate werden direkt im Tab “Duplicate” gekennzeichnet, was eine schnelle Übersicht über betroffene Seiten liefert.

Sitebulb

Vom Funktionsprinzip her ähnlich wie Screaming Frog, bereitet dieses Tool die Ergebnisse visuell auf und priorisiert Probleme nach Schweregrad. Das erleichtert die Einschätzung, welche Seiten dringend Aufmerksamkeit brauchen und welche weniger kritisch sind.

Siteliner

Für jede Seite berechnet dieses Tool den prozentualen Anteil an dupliziertem Inhalt im Verhältnis zum Gesamttext. Das gibt schnell Aufschluss darüber, welche Seiten besonders betroffen sind, ohne dafür vorab einen vollständigen Crawl durchführen zu müssen.

Google Search Console

Die Search Console weist darauf hin, wenn ein doppelter Meta Title oder Meta Description vorhanden ist. Dis ist häufig ein erstes Indiz für Duplicate Content. Sie ersetzt keine vollständige Crawl-Analyse, eignet sich aber als kostenloser erster Anhaltspunkt, bevor man tiefer in die Crawling-Tools einsteigt.

Manuelle Google-Suche

Wer gezielt einen konkreten Verdacht prüfen möchte, gibt einen charakteristischen Satz in Anführungszeichen direkt in die Google-Suche ein. Das zeigt alle Seiten, auf denen dieser Text indexiert ist, auch wenn die Methode bei größeren Websites nicht skalierbar ist.

Copyscape

Mit diesem Tool lässt sich das Web nach identischen Textpassagen durchsuchen, um zu sehen, auf welchen Seiten Ihr Content auftaucht. Bei kostenpflichtiger Nutzung gibt es zusätzlich an, wie stark die gefundenen Seiten mit dem Original übereinstimmen.

Wann sind wiederkehrende Inhalte kein Duplicate Content?

Kurze Navigationselemente, rechtliche Standardhinweise, Footer-Texte oder wiederkehrende Boilerplate-Abschnitte fallen nach Googles Einschätzung nicht unter Duplicate Content, solange der Hauptinhalt einer Seite eigenständig ist. Entscheidend ist nicht, ob Textelemente mehrfach vorkommen, sondern ob der inhaltliche Kern einer Seite einzigartig genug ist, um einen eigenständigen Indexierungswert zu haben.

Lokal ausgerichtete Unterseiten für verschiedene Städte gelten ebenfalls nicht als DC, wenn der jeweilige Hauptteil des Textes individuell auf die Zielregion zugeschnitten ist. In der Praxis spricht man erst dann von einem Problem, wenn zwei Seiten im zentralen Inhaltsbereich zu mehr als 70 bis 80 Prozent übereinstimmen. Strukturelle Ähnlichkeit allein, etwa bei Produktseiten mit gleichem Layout aber verschiedenem Text, reicht nicht aus.

Der richtige Umgang mit doppelten Inhalten

Die technisch sauberste Lösung ist der Canonical Tag. Mit signalisieren Sie Google, welche URL die bevorzugte Version einer Seite ist. Das löst Parameterseiten und URL-Variationen, ohne Inhalte löschen zu müssen. Wichtig: Google behandelt den Canonical Tag als Signal, nicht als Befehl. Wenn er inkonsistent eingesetzt wird oder anderen Signalen widerspricht, kann Google ihn ignorieren.

Bei eindeutigen Duplikaten empfiehlt sich ein 301-Redirect auf die Hauptversion, der alle Linksignale bündelt. In der Google Search Console lassen sich URL-Parameter festlegen, die Crawler übergehen sollen, was besonders bei Shop-Filtern sinnvoll ist. Seiten ohne Indexierungswert können über die robots.txt ausgeschlossen werden, allerdings mit Bedacht: Eine nicht gecrawlte Seite liefert auch keine Signale für den Canonical-Abgleich. Für SEO Texte, die inhaltlich ähnlich sein müssen, lohnt es sich, jeden Text auf eine eigene Suchintention zuzuschneiden, um Duplicate Content zu vermeiden und die Relevanz für verschiedene Anfragen zu schärfen.

Wer unsicher ist, wo auf der eigenen Website Duplicate Content lauert, findet beim SEO Berater gezielte Unterstützung bei der Analyse von URL-Strukturen, Crawling-Daten und Indexierungsproblemen.

Warum ist Duplicate Content für SEO problematisch?

Wenn mehrere URLs denselben Inhalt ausliefern, muss Google entscheiden, welche Version in den Suchergebnissen erscheint. Das verbraucht Crawling-Budget, das bei großen Websites eine messbare Ressource ist. Je mehr Kapazität auf doppelte Seiten entfällt, desto weniger steht für neue oder aktualisierte Inhalte zur Verfügung. Backlinks auf mehrere Duplikate verteilt konzentrieren außerdem weniger Linkjuice auf eine einzelne Seite.

Wer das Google Ranking verbessern möchte, sollte Duplicate Content frühzeitig beseitigen, denn es handelt sich dabei um einen klassischen SEO Fehler, der Ranking-Signale verdünnt. Verschiedene Studien zeigen, dass Seiten mit hohem Anteil an dupliziertem Inhalt deutlich schlechtere Sichtbarkeitswerte erzielen als Seiten mit eigenständigem Content. Google wählt in der Regel die Version mit den meisten Backlinks oder der ältesten Crawl-Historie, und das ist nicht immer die Seite, die Sie ranken lassen möchten.

Interner vs. externer Duplicate Content

Inhalte lassen sich in zwei Kategorien unterteilen: intern, also innerhalb einer Domain, und extern, also domainübergreifend. Beide beeinflussen die Indexierung, entstehen aber durch andere Ursachen und erfordern eigene Lösungsansätze. Die folgende Gegenüberstellung zeigt die wichtigsten Unterschiede:

Merkmal	Interner Duplicate Content	Externer Duplicate Content
Definition	Gleicher Inhalt auf mehreren URLs derselben Domain	Gleicher Inhalt auf verschiedenen Domains
Typische Ursache	Technische URL-Variationen, CMS-Duplikate, Parameterseiten	Contentklau, Syndizierung, kopierte Herstellertexte
Erkennbarkeit	Mit Crawling-Tools wie Screaming Frog gut auffindbar	Nur über externe Tools wie Copyscape erkennbar
Lösung	Canonical Tags, 301-Redirects, robots.txt, URL-Parameter-Einstellungen	DMCA-Takedown, Canonical-Verweis auf Original, direkte Kontaktaufnahme
Einfluss auf Crawling-Budget	Direkt, da Crawler mehrere URLs derselben Domain verarbeitet	Indirekt, primär Auswirkung auf Ranking-Signalverteilung

Verschiedene Ausprägungen von Duplicate Content

Nicht jede Ausprägung ist gleich schwerwiegend. Je nachdem, wie stark zwei Seiten inhaltlich übereinstimmen, unterscheidet man drei Formen. Das Ausmaß der Überschneidung bestimmt, wie stark Suchmaschinen bei der Indexierung ins Straucheln geraten und wie dringend Handlungsbedarf besteht. Wer versteht, welche Form vorliegt, kann gezielter gegensteuern.

Exact Duplicate Content

Bei dieser Ausprägung stimmen zwei oder mehr Seiten wortwörtlich überein. Das passiert zum Beispiel, wenn eine Produktbeschreibung unverändert auf mehreren Unterseiten erscheint oder eine Seite technisch bedingt unter zwei verschiedenen URLs aufrufbar ist. Für Google ist das der eindeutigste Fall: Beide Seiten konkurrieren um dieselbe Position, und nur eine kann gewinnen.

Near Duplicate Content

Hier weichen Seiten nur minimal voneinander ab, etwa durch ausgetauschte Städtenamen, geänderte Datumsangaben oder leicht umformulierte Sätze bei ansonsten gleichem Text. Lokal ausgerichtete Landingpages, die für 20 Städte erstellt wurden, aber inhaltlich kaum differenzieren, fallen typischerweise darunter. Google erkennt solche Muster und wertet die betroffenen Seiten als schwache Signalgeber.

Partial Duplicate Content

Diese Ausprägung betrifft Seiten, bei denen nur bestimmte Abschnitte identisch sind, der Rest aber eigenständig bleibt. Wiederkehrende Einleitungsabsätze, standardisierte Disclaimer oder strukturell gleiche Zwischenüberschriften sind typische Beispiele. Solange der inhaltliche Kern der Seite einzigartig ist, stuft Google diese Überschneidungen in der Regel nicht als Problem ein.

Schadet Content-Klau auch dem Urheber?

Google erkennt in den meisten Fällen das Original und bevorzugt es in den Suchergebnissen. Dafür zieht die Suchmaschine das Datum der ersten Indexierung, eingehende Backlinks und die Domain-Autorität heran. Problematisch wird es, wenn eine Domain mit sehr hoher Autorität einen fremden Text kopiert und Google diesen früher crawlt als das Original, sodass die kopierte Version fälschlicherweise als Quelle gewertet wird.

Um das Original zu sichern, hilft es, neue Seiten unmittelbar nach Veröffentlichung über Google Inspect URL zur Indexierung einzureichen. Bei nachgewiesenem Klau können Sie über einen DMCA-Takedown-Request an Google die Entfernung der kopierten Inhalte aus dem Index beantragen.

FAQs zum Thema Duplicate Content

Bestraft Google Duplicate Content?

Reicht ein Canonical Tag als Lösung?

Schadet syndizierter Content der Originalseite?

Was tun, wenn jemand meinen Content kopiert hat?

Philipp Nessmann

Seit über 20 Jahren im SEO aktiv – mit technischem Tiefgang, Unternehmergeist und dem Blick fürs Wesentliche. Ich habe über 1100 Kunden betreut und erfolgreiche Firmen wie Contentbär, Jurawelt und trauringspezialisten.de aufgebaut.

Wir bewegen uns genau am digitalen Zeitgeist – und sorgen dafür, dass unsere Kunden nicht nur bei Google, sondern auch in KI-Systemen wie ChatGPT, Gemini & Co. ganz oben auftauchen.

Referenzen

Contentbär Blog