Datei robot.txt waybackmachine ausschliessen
Autor: Peter L.
Besucht 475,
Followers 1,
Geteilt 0
Hallo,
ich möchte gerne in der Datei robot.txt die suchmachine "waybackmachine" ausschliessen.
Wie ist hier das richtige Format ?
User-agent: ia_archiver
Disallow: /
so sieht meine robots.txt aktuell aus ( ohne das ich weiss, was die einzelnen disallow bedeuten :) )
User-agent: *
Disallow: /admin
Disallow: /captcha
Disallow: /imemail
Gepostet am
Die Datei heißt robots.txt. Nr der Vollständigkeit halber, da bei Deiner Angabe das s fehlt.
Die von Dir angegebenen Zeilen sind richtig.
Mit
User-agent: ia_archiver
Disallow: /
verbietest Du waybackmachine das crawlen aller Strukturen und Dateien und mit
User-agent: *
Disallow: /admin
Disallow: /captcha
Disallow: /imemail
verbietest Du allen anderen das crawlen der angegebenen Verzeichnisse.
Was ist "waybackmaschine" eigentlich? Eine Seite? Ein Menüpunkt? Ein Wort im Text?
Schau mal hier: https://archive.org/web/
Autor
Danke für deine Antwort !
Also
User-agent: ia_archiver
OHNE: Disallow: /
reicht ?
Also komplett:
User-agent: ia_archiver
Disallow: /admin
Disallow: /captcha
Disallow: /imemail
"waybackmaschine" ist brandgefährlich für alle die ihre Seiten löschen müssen, wenn sie nicht ganz "rechtskonform" sind. Abmahn-Anwälte stürzen sich gerne darauf und behauten die Seite sei ja noch im Netz auffindbar.
Google Cache und andere Suchmachinen Cache sind leicht zu löschen. Aber die wohltätige Stiftung der "waybackmaschine" sitzt in Kalifornieren (USA) und ist nur per email zu erreichen, auf welche in der Regel keine Reaktion erfolgt.
Ein Schelm, der da andere Machenschaften dahinter vermutet.................
Nein, so habe ich das aber nicht geschrieben. Lies mal den Beitrag nochmal. Du musst beides eintragen so wie es da steht.
Woher hast Du denn eigentlich diese Info, dass Abmahn-Anwälte sich da bedienen?
Autor
Ja sorry war für mich nicht so ganz klar was du meinst.
Also kann ich beliebig viele
"User-agent: " Anweisungen hintereinander setzen
und
WesiteX5 gibt von Haus aus /admin /captcha /imemail nicht frei.
Meine robots.txt sieht jetzt so asu:
User-agent: ia_archiver
Disallow: /
User-agent: *
Disallow: /admin
Disallow: /captcha
Disallow: /imemail
Und woher ich die Info habe ? Glaube mir - aus erster Hand :)
Und wenn du mir nicht glaubst - Google mal, da wird die Problematik erörtert.