Dateien richtig einsetzen

Dateien richtig einsetzen

Eine robots.txt-Datei teilt Suchmaschinen mit, ob sie auf
bestimmte Teile einer Website zugreifen und sie in der Folge
crawlen dürfen (1). Diese Datei muss den Namen “robots.txt”
tragen und sich im Hauptverzeichnis eurer Website befinden (2).

Ihr könntet Interesse daran haben, dass bestimmte Seiten eurer
Website nicht gecrawlt werden, da sie für Nutzer nicht hilfreich wären,
wenn sie in den Suchergebnissen von Suchmaschinen auftauchen
würden.

Wenn ihr verhindern wollt, dass Suchmaschinen bestimmte
Seiten crawlen, könnte ihr auf den hilfreichen robots.txt-Generator der
Google Webmaster-Tools zurückgreifen.

Der unterstützt euch bei der Erstellung der Datei.

Beachtet bei der Verwendung von Subdomains –
falls bestimmte Seiten auf einer bestimmten Subdomain gecrawlt
werden sollen -, dass ihr eine weitere robots.txt-Datei für die
Subdomain erstellen müsst.

Für mehr Infos zu robots.txt-Dateien empfehlen wir euch den Beitrag

in der Hilfe für Webmaster zur Verwendung einer robots.txt-Datei.
Es gibt eine Reihe weiterer Möglichkeiten, um zu verhindern, dass
Content in den Suchergebnissen erscheint – etwa das Hinzufügen

von “NOINDEX” zum Meta-Tag “robots”, der Einsatz von .htaccess,
um Verzeichnisse durch Passwörter zu schützen, und die
Verwendung der Google Webmaster-Tools, um bereits gecrawlten
Content zu entfernen. Google Engineer Matt Cutts geht mit euch
die Vorbehalte gegen jede dieser URL-Blockier-Methoden in einem
(englischsprachigen) Video durch.

 

Verwendet eine sicherere Methode für sensible Daten

Ihr solltet robots.txt nicht dazu nutzen, heikle oder vertrauliche Inhalte zu blockieren. Ein Grund
dafür ist, dass Suchmaschinen auf die blockierten URLs immer noch verweisen können (indem
sie nur die URL anzeigen, nicht aber Titel oder Snippet), falls es Links zu den URLs irgendwo im
Internet gibt (beispielsweise in Referrer-Logs). Außerdem könnten nicht konform arbeitende oder
zwielichtige Suchmaschinen den “Robots Exclusion Standard” nicht akzeptieren und die
Anweisungen in eurer robots.txt-Datei missachten. Schlussendlich könnte ein neugieriger Nutzer
die Verzeichnisse und Unterverzeichnisse in eurer robots.txt-Datei begutachten und so die URLs
der Inhalte, die ihr verbergen wollt, entdecken. Das Verschlüsseln des Contents oder ein
Passwortschutz mit .htaccess sind die sinnvolleren Alternativen.

Vermeidet:
Seiten, die an Suchergebnisse erinnern, crawlen zu lassen (Nutzer mögen es nicht, wenn sie
eine Seite mit Suchergebnissen verlassen, nur um auf einer ähnlichen Seite zu landen, die
ihnen kaum einen Mehrwert bietet.)
Seiten, die das Ergebnis eines Proxy-Service sind, crawlen zu lassen. 

Robots Exclusion Standard
Eine Übereinkunft, die verhindert, dass diesem Standard
entsprechende Webspiders oder Webcrawler wie der Googlebot
auf Websites oder Teile davon zugreifen, die nicht öffentlich
zugänglich sein sollen..

Proxy-Service
Ein Computer, der in Fällen, in denen ein internes oder externes
Netzwerk eine Verbindung aufbaut, als Verbindungsersatz dient,
oder eine Software, die eine solche Funktion aufweist.

Quelle: Google – Einführung in Suchmaschinenoptimierung

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert.