Von Google werden regelmässig erhebliche Teile des Webs gecrawlt. Das Crawling ist erforderlich, da nur so die Suchergebnisse auf dem Laufenden gehalten werden können. Kommt es auf einer Webseite zu Problemen, verlangsamt die Suchmaschine in der Regel auch das wichtige Crawling oder es wird sogar vollständig eingestellt.
Um genau dies zu vermeiden, sollten Webseitenbetreiber regelmässig kontrollieren, wie sich das Crawling gestaltet. Grundlegend gibt es Signale, die darauf hindeuten, dass eine Unterbrechung des Crawlings ansteht.
Das Ziel von Suchmaschinen, ganz gleich ob es sich dabei um Google oder um andere Dienste handelt, ist es in erster Linie ein recht umfassendes Abbild des Internets mit den eigenen Suchergebnissen liefern zu können. Damit dies überhaupt möglich ist, sind die Crawler der Suchmaschinen permanent im Einsatz. Bei ihren Wegen durchs Internet spüren sie neue Dokumente auf und erkennen verschiedene Veränderungen. Auf diesem Weg gelingt es ihnen den eigenen Index aktuell zu halten.
Crawling-Geschwindigkeit als Richtwert
Mittlerweile gibt es im Web eine gigantische Anzahl von Dokumenten, die für Suchmaschinen und User verfügbar sind. Für Google ist es daher entscheidend, dass die Dokumente möglichst schnell abgerufen werden. Grundlegend ist es möglich, dass Google das Crawlen einer Webseite stoppt oder zumindest erheblich verlangsamt, wenn es auf der Webseite Probleme gibt oder die Antwortzeit für den Crawler steigt. Ein entscheidendes Element stellt an diesem Punkt die Verbindungszeit dar. Ist die Verbindungszeit, die zwischen Server und Webseite besteht, schlichtweg zu lang, muss damit gerechnet werden, dass sich der Crawler entweder verlangsamt oder das Crawlen von Google vollständig eingestellt wird.
Webseitenbetreiber haben durchaus die Möglichkeit, das Crawlen einer Seite zu kontrollieren. Dies ist über die Crawling-Statistiken, die es zu jeder Seite gibt, möglich. Hier kann ein Blick auf den zeitlichen Verlauf des Crawlings geworfen werden. Verlangsamt sich das Crawling einer Webseite immer weiter, ist es grundlegend ratsam, nach den Gründen hierfür zu suchen.
Die Verbindungszeit ist aber bei weitem nicht der einzige Grund, der das Crawling von Google behindern kann. Gleiches gilt für http-Statuscodes, die im 500er-Bereich liegen. Sie sind in erster Linie dafür, dass es auf dem Server diverse Probleme gibt. Nach aktuellen Aussagen zieht sich der Crawler von Google bei Problemen dieser Art grundlegend zurück.