Was ist die robots.txt?
Eine robots.txt ist erforderlich, da im Protokoll der Suchmaschinen festgelegt ist, dass der Robot (= der User Agent) beim Aufruf einer Seite zuerst das Root Verzeichnis sichtet. Dort sucht dieser nach der robots.txt Datei. Diese wird von dem User Agent ausgelesen und durch diesen interpretiert.
Wozu dient die robots.txt?
Die robots.txt dient Suchmaschinen wie Google dazu, die Inhalte auf einer Webseite zu finden, und diese entsprechend des eigenen Algorithmus interpretieren und auslesen zu können. Ohne die robots.txt Datei ist es aufgrund des Protokolls nicht möglich, die Inhalte der Webseite auslesen zu können. Dies zeigt sich immer dann, wenn bei Suchergebnissen angegeben ist, dass die Inhalte einer Webseite aufgrund einer fehlenden robots.txt nicht angezeigt werden können.
Was sollte die robots.txt enthalten?
In der robots.txt einer Webseite müssen all die Unterseiten sowie Verzeichnisse enthalten sein, welche durch die Suchmaschinen nicht ausgelesen werden sollen. Der Ausschluss bestimmter Inhalte seiner Webseite von der Indexierung spielt für den Administrator aus verschiedenen Gründen eine wichtige Rolle.
Zwei Regeln in einer robots.txt werden grundsätzlich durch eine Leerzeile voneinander getrennt, damit Robots.txt auch verstanden wird. Abhängigkeiten gibt es zwischen den einzelnen Regeln kann, das heisst, hierbei muss nichts weiter beachtet werden. Bei Anweisungen für Disallow ist es erforderlich, einen Slash (= / ) an den Anfang der jeweiligen Disallow-Anweisung zu setzen.
Welche bekannten Fehler kann eine Robots.txt haben?
Bei einer robots.txt ist es wichtig, auf die richtige Schreibweise, das heisst, auf die Grossschreibung und Kleinschreibung zu achten. Dazu kann eine einzige falsche Syntax in der robots.txt zu einem schweren Fehler führen.
Was ist eine sitemap.xml?
Eine sitemap.xml ist für Suchmaschinen relevant, um die Unterseiten einer Webseite auslesen zu können. Die sitemap.xml enthält alle Unterseiten und Verzeichnisse einer Internetseite, und wurde früher von Administratoren nach Erstellen in den Webmaster Tools hochgeladen. Inzwischen gibt es so gute Plugins, die kostenlos genutzt werden können, dass die sitemap.xml automatisch ausgelesen, und von den Suchmaschinen verwendet wird, ohne dass diese noch extra in den Webmaster Tools von Google und den anderen Suchmaschinen hochgeladen werden muss.
Wozu dient eine sitemap.xml?
Ohne eine sitemap.xml hat eine Suchmaschine keinen Überblick über die Inhalte einer Webseite, sie ist relevant für das Anzeigen der Unterseiten einer Webseite bei den jeweiligen Suchergebnissen. Gibt es für eine Webseite keine sitemap.xml, kann die Seite noch so toll gemacht sein, und noch so tolle Inhalte aufweisen, sie wird ihren Weg in die Suchergebnisse kaum finden können.
Was sollte die sitemap.xml enthalten?
Das Wichtigste bei einer sitemap.xml ist die Auszeichnungssprache, diese ist im aktuellen Google Sitemap-Protokoll vorgegeben. Die Sitemap.xml enthält die Adressen der Homepage und aller Unterseiten einer Webseite, dazu den Zeichencode und Metadaten, die erforderlich sind. Dies sind unter anderem die Angaben zur Frequenz und zum Datum, an dem die Seitenübersicht aktualisiert wird. Gerade bei Newsseiten ist in den neueren Artikeln schnelle Frequenzen erforderlich, wenn diese nachträglich bearbeitet werden sollen, während bei älteren Artikeln eine längere Frequenz ausreicht.
Welche bekannten Fehler kann eine sitemap.xml haben?
Der gravierendste Fehler bei einer sitemap.xml ist die Grösse der Datei. Diese darf eine maximale Anzahl von Unterseiten nicht überschreiten, auch die Anzahl der maximalen Megabytes ist von Google und den anderen Suchmaschinen vorgegeben. Wird die Anzahl der maximalen URLs oder der maximalen Megabytes überschreiten, ist es erforderlich, eine Teilung der Sitemap vorzunehmen, und zwei unterschiedliche Sitemap.xml zu erstellen.