Durch einen Artikel von Ralph Babel bin ich darauf aufmerksam geworden, dass die Erweiterung „Fasterfox“ für den Mozilla-Browser Firefox überflüssige Seitenzugriffe auf den Inhalt einer Seite durchführt. Es werden also Inhalte geladen, die nicht unbedingt benötigt werden. Da Performance immer wieder ein Thema ist, auch für Weblogs, hat mich dieser Artikel mehr interessiert und ich habe meine robots.txt angepasst.
Die robots.txt im Root-Verzeichnis einer Website ist sicher den meisten Webautoren bekannt, dass man aber die Erweiterung Fasterfox extra aussprerren kann bzw. muss, ist nicht so alltäglich (ab Version 1.0.1). Leider akzeptiert die Erweiterung den String
User-agent: *
nicht, es muss direkt auf Fasterfox hingewiesen werden -User-agent: Fasterfox
. Um Fasterfox gänzlich auszusperren genügen folgende Zeilen in der robots.txt.User-agent: Fasterfox Disallow: /
Somit sieht meine robots.txt derzeit folgendermaßen aus. Für diejenigen, die keine robots.txt in ihrem Verzeichnis haben - einfach den Code kopieren, als robots.txt (Achtung: alle Zeichen müssen klein geschrieben sein) speichern und die Verknüpfungen anpassen. Die Datei muss in Root-Verzeichnis liegen, also in der obersten Verzeichnis-ebene.
# https://bueltge.de/ User-agent: Fasterfox Disallow: / User-agent: UniservalRobot/1.0 Disallow: /temp/ Disallow: /mail/ Disallow: /wp-admin/ Disallow: /wp-images/ Disallow: /wp-includes/ Disallow: /bueltge_old/ Disallow: /wp-content/images/ Disallow: /wp-content/backup/ Disallow: /wp-content/wp-upload-manager/ User-agent: wget Disallow: User-agent: webzip Disallow: User-agent: * Disallow: /temp/ Disallow: /mail/ Disallow: /wp-admin/ Disallow: /wp-images/ Disallow: /wp-includes/ Disallow: /bueltge_old/ Disallow: /wp-content/images/ Disallow: /wp-content/backup/ Disallow: /wp-content/wp-upload-manager/
Kurz erklärt:
Disallow: /
sperrt den den übergeordneten Roboter aus.Disallow:
lädt den übergeordneten Roboter ein.Allerdings sollte man erwähnen, dass sich Suchmaschinenbetreiber nicht an die Daten in der robots.txt halten müssen, es wohl aber tun. Außerdem ist diese Datei für jeden zugänglich und man kann so URLs heraus bekommen.
Weiterführende Links:
- Die Web Robots Page - http://www.robotstxt.org/
- Was ist eine robots.txt - http://www.drweb.de/suchmaschinen/robots.shtml
- Was ist eine robots.txt, die 2. - http://www.webmatze.de/webdesign/planung/robots.htm
- Validator robots.txt - http://www.searchengineworld.com/cgi-bin/robotcheck.cgi
Muss es nicht heißen eigentlich so heißen bei wget und webzip?
User-agent: wget
Disallow: /
User-agent: webzip
Disallow: /