Website & Technik

Sitemap und robots.txt: Grundlagen der Indexierung

7 Min. Lesezeit · Häuserhelden Studios

Immobilienmakler steuert die Indexierung seiner Website über Sitemap und robots.txt

Sitemap und robots.txt sind die zwei Dateien, mit denen Sie Google sagen, welche Seiten es finden soll und welche nicht. Hier die Grundlagen ohne Fachjargon.

Crawling und Indexierung: der Unterschied

Bevor Ihre Objektseite bei Google erscheint, passieren zwei Schritte. Beim Crawling besucht der Googlebot Ihre Seiten und liest sie. Bei der Indexierung nimmt Google die gelesenen Seiten in seinen durchsuchbaren Index auf. Erst was indexiert ist, kann in den Suchergebnissen auftauchen. Sitemap und robots.txt sind die beiden Werkzeuge, mit denen Sie diesen Prozess steuern.

Schematische Darstellung von Sitemap und robots.txt im Crawling-Prozess

Die Sitemap: Ihr Inhaltsverzeichnis für Google

Eine Sitemap ist eine Datei, in der Sie die wichtigen Seiten Ihrer Website auflisten, damit Suchmaschinen sie effizient finden. Laut Google Search Central ist sie besonders dann sinnvoll, wenn eine Seite groß ist, viele Unterseiten hat oder neue Inhalte nicht gut intern verlinkt sind. Genau das trifft auf Makler-Websites mit vielen Objekt- und Standortseiten zu.

Die Datei heißt üblicherweise sitemap.xml und liegt im Stammverzeichnis Ihrer Domain. Sie enthält pro Eintrag die URL und optional das Datum der letzten Änderung. Wichtig zu verstehen: Eine Sitemap ist ein Vorschlag, keine Garantie. Google entscheidet weiterhin selbst, was es indexiert.

So bauen und reichen Sie eine Sitemap ein

Format einhalten: Die Datei muss UTF-8-codiert sein, eine einzelne Sitemap darf laut Google maximal 50.000 URLs oder 50 MB enthalten.
Automatisch erzeugen: Die meisten Website-Systeme und Baukästen erstellen die Sitemap automatisch und halten sie aktuell. Sie müssen sie nicht von Hand pflegen.
In der Search Console einreichen: Reichen Sie die URL Ihrer Sitemap in der Google Search Console ein. Dort sehen Sie auch, wie viele Seiten Google tatsächlich indexiert hat.
Nur indexierbare Seiten aufnehmen: Listen Sie nur Seiten, die wirklich in der Suche erscheinen sollen, also keine Dankesseiten oder Filter-URLs.

Die robots.txt: der Türsteher fürs Crawling

Die robots.txt ist eine Datei im Stammverzeichnis, die Suchmaschinen-Crawlern mitteilt, welche Bereiche sie aufrufen dürfen und welche nicht. Sie dient laut Google Search Central vor allem dazu, den Server nicht mit unnötigen Anfragen zu überlasten.

Ein typischer Eintrag sieht so aus: Disallow: /interner-bereich/ sperrt einen Ordner fürs Crawling. Mit Sitemap: können Sie zusätzlich auf den Standort Ihrer Sitemap verweisen.

Der häufigste und gefährlichste Irrtum

Viele glauben, robots.txt halte Seiten aus Google heraus. Das stimmt nicht. Google weist ausdrücklich darauf hin: Eine per robots.txt gesperrte URL kann trotzdem im Index landen, wenn andere Seiten darauf verlinken. Die Datei verhindert das Lesen des Inhalts, nicht das Erscheinen der URL. Wer eine Seite wirklich aus der Suche fernhalten will, nutzt stattdessen das Meta-Tag noindex oder einen Passwortschutz.

Genauso riskant ist der umgekehrte Fehler: Eine zu pauschale Disallow-Regel sperrt versehentlich die ganze Website. Das passiert oft beim Umzug von einer Testumgebung. Prüfen Sie nach jedem Relaunch, ob Ihre robots.txt nicht aus Versehen alles blockiert.

Häufige Fragen

Brauche ich als kleiner Makler überhaupt eine Sitemap?

Sie schadet nie und hilft besonders bei vielen Objekt- und Standortseiten. Bei einer winzigen Seite mit fünf gut verlinkten Unterseiten findet Google auch ohne Sitemap alles. Sobald Sie regelmäßig neue Anzeigen veröffentlichen, lohnt sie sich.

Was gehört nicht in die robots.txt?

Keine Inhalte, die Sie eigentlich aus dem Index heraushalten wollen. Dafür ist sie das falsche Werkzeug. Sperren Sie hier nur Bereiche, die der Crawler gar nicht erst lesen muss, etwa interne Suchergebnisse oder Verwaltungsbereiche.

Wie prüfe ich, ob Google meine Seiten findet?

In der Google Search Console sehen Sie unter der Indexierungs-Übersicht, welche Seiten indexiert sind und welche nicht, samt Grund. Das ist Ihr wichtigstes Kontrollinstrument.

Beispiel: eine wachsende Makler-Website

Stellen Sie sich vor, Sie veröffentlichen jeden Monat neue Objektanzeigen und betreiben zusätzlich Standortseiten für mehrere Städte in Ihrem Einzugsgebiet. Ohne Sitemap muss Google sich allein über interne Links zu jeder neuen Seite vorarbeiten. Frische Anzeigen, die noch nicht prominent verlinkt sind, werden dann manchmal erst spät gefunden, manchmal gar nicht.

Mit einer automatisch erzeugten Sitemap, die bei jeder neuen Veröffentlichung aktualisiert wird, melden Sie Google die neue URL aktiv. In Kombination mit der Search Console sehen Sie zudem schnell, ob eine bestimmte Standortseite ein Indexierungsproblem hat, etwa weil sie versehentlich auf noindex steht oder über die robots.txt gesperrt ist. So finden Sie die Ursache, statt im Dunkeln zu raten, warum eine wichtige Seite nicht in der Suche auftaucht.

Drei häufige Fehler und wie Sie sie vermeiden

Gesperrt statt entfernt: Eine Seite per robots.txt sperren, um sie aus Google zu nehmen, funktioniert nicht zuverlässig. Nutzen Sie noindex, wenn die Seite wirklich verschwinden soll.
Veraltete Sitemap: Eine Sitemap, die noch alte, gelöschte Objektseiten enthält, sendet widersprüchliche Signale. Lassen Sie sie automatisch pflegen.
Komplett-Sperre nach Testbetrieb: Eine Disallow-Regel aus der Entwicklungsumgebung, die nach dem Livegang stehen bleibt, kann die ganze Seite unsichtbar machen. Erste Kontrolle nach jedem Relaunch.

Beide Dateien sind klein, aber wirkungsvoll. Wer sie versteht, behält die Kontrolle darüber, was von der eigenen Website in der Suche erscheint, statt sich auf Zufall zu verlassen.

Sitemaprobots.txtIndexierung

Quellen

Sichtbar werden, ohne selbst zu optimieren

Häuserhelden Studios übernimmt SEO, GEO, KI-Sichtbarkeit und Content für Makler. Als Monats-Abo.

Pakete ansehen → Erstgespräch buchen