Die Vorstellung, dass Google URLs direkt crawlt, sobald der Googlebot auf einen Link stößt, ist falsch. Tatsächlich werden die URLs zunächst gesammelt und erst anschließend besucht. Der Prozess des Crawlens von Webseiten durch Google ist komplexer, als viele annehmen. Gary Illyes (Datenanalyst bei Google) erklärte dies ausführlich in seinem Google SEO Podcast.
Dieses Verhalten lässt sich beispielsweise an den Server-Logfiles von Websites erkennen. Es gibt mehr, als nur das direkte Aufrufen von URLs aus Linkelementen. Mechanismen wie Priorisierung und Deduplizierung spielen eine wichtige Rolle.
Zwar kann es in manchen Situationen sinnvoll sein, vereinfacht auszudrücken, dass Google den Links „folgt“, in anderen Fällen ist es jedoch besser, das Vorgehen detaillierter zu beschreiben.
Wie Google tatsächlich beim Finden und Abrufen neuer URLs vorgeht, verdeutlicht die folgende Abbildung: Ein Downloader sorgt für das Herunterladen von Inhalten. Dabei werden neben Texten und Metadaten auch URLs gefunden, die in einer Warteliste landen. Eine Steuerungskomponente regelt, wann welche URLs gecrawlt werden.
Dieses Vorgehen erklärt, warum die Reihenfolge der Links auf einer Seite nicht bestimmt, wann die URLs gecrawlt werden. Dies hatte John Mueller im Jahr 2022 bereits einmal erläutert.
Wer also meint, dass es ausreicht, einmalig neue Inhalte zu erstellen und dann erwartet, dass sie „morgen“ schon sichtbar sind, könnte eines Besseren belehrt werden. Wie bereits in anderen Beiträgen beschrieben, ist SEO eine mittel- bis langfristige Strategie. Es erfordert regelmäßige, monatlich aktualisierte Inhalte. Gern berate ich Sie dazu in einem kostenlosen Erstgespräch.
Artikel zum Anhören in deutscher Sprache:
Gern erkläre ich Ihnen den Prozess des Crawlens von Webseiten durch Suchmaschinen wie Google genauer:
1. Entdeckung von URLs
Der Crawling-Prozess beginnt mit der Entdeckung neuer URLs. Google nutzt verschiedene Methoden, um neue Seiten zu finden:
- Links von anderen Webseiten: Googlebot folgt Links von bereits gecrawlten Seiten zu neuen URLs.
- Sitemaps: Website-Betreiber können XML-Sitemaps einreichen, die eine Liste aller Seiten ihrer Website enthalten.
- Benutzer-Eingaben: Manchmal können Benutzer URLs direkt über Tools wie die Google Search Console einreichen.
2. Sammlung und Warteliste
Sobald URLs entdeckt werden, werden sie zunächst in einer internen Datenbank gesammelt. Diese URLs werden nicht sofort gecrawlt, sondern in eine Warteliste eingefügt. Die URLs in dieser Liste werden priorisiert und geordnet.
3. Priorisierung und Deduplizierung
Google verwendet verschiedene Mechanismen, um zu entscheiden, wann und welche URLs gecrawlt werden sollen:
- Priorisierung: URLs werden nach Relevanz, Popularität und Aktualität geordnet.
- Deduplizierung: Google erkennt doppelte Inhalte und sorgt dafür, dass diese nicht mehrfach gecrawlt werden.
4. Downloader
Der nächste Schritt im Prozess ist das tatsächliche Herunterladen der Inhalte. Hierbei:
- Texte und Metadaten: Der Googlebot liest und speichert den vollständigen Inhalt der Seite, einschließlich Text, Bilder und Metadaten.
- Weitere URLs: Während des Crawlens entdeckt der Bot möglicherweise weitere URLs, die dann ebenfalls in die Warteliste aufgenommen werden.
5. Steuerungskomponente
Eine spezielle Steuerungskomponente regelt den Zugang zu den gecrawlten URLs. Diese Komponente entscheidet basierend auf verschiedenen Faktoren, wann welche URLs erneut gecrawlt werden sollen:
- Aktualität der Inhalte: Websites, die häufig aktualisiert werden, werden öfter besucht.
- Server-Ressourcen: Google versucht, Überlastungen auf den Servern der Websites zu vermeiden, indem es die Häufigkeit der Besuche steuert.
6. Indexierung
Nach dem Crawl-Prozess folgen die Indexierung und das Ranken der Inhalte in den Suchergebnissen:
- Indexierung: Die gecrawlten Inhalte werden analysiert und in den Google-Index aufgenommen. Dabei werden wichtige Informationen wie Keywords, Seitentitel und Metadaten gespeichert.
- Ranking-Algorithmen: Die indexierten Seiten werden anhand zahlreicher Kriterien bewertet und gerankt, um sie in den Suchergebnissen anzuzeigen.
7. Monitoring und Feedback
Google überwacht kontinuierlich den Zustand und die Leistung der gecrawlten Seiten. Informationen aus dieser Überwachung fließen zurück in den Crawling-Prozess, um die Prioritäten und Frequenzen anzupassen.
Fazit
Der Crawling-Prozess von Google ist ein komplexes Zusammenspiel aus Entdeckung, Sammlung, Priorisierung, Herunterladen und Indexieren von Webseiten. Durch diesen strukturierten Ansatz gewährleistet Google eine effiziente und umfassende Durchsuchung des Internets, um die relevantesten Inhalte in den Suchergebnissen anzuzeigen. Wenn Sie Fragen zu spezifischen Aspekten dieses Prozesses haben, stehe ich Ihnen gern im Rahmen eines kostenlosen Erstgesprächs zur Verfügung.