#1 20. November 2014 Hallo, sicherlicht kennt der ein oder andere archive.today - webpage capture Da dieser Bot weder die Robots.txt und noch den Eintrag "noindex" befolgt, will ich den nun aussperren. "Do you delete my stored page(s) ? Pages which violate our hoster's rules (cracks, ♂️♀️, etc) may be deleted. Also, completely empty pages (or pages which have nothing but text like “502 Server Timeout”) may be deleted." Die Frage ist nur.. wie? Hat da jemand eine Ahnung, wie ich das machen könnte? + Multi-Zitat Zitieren
#2 20. November 2014 AW: SEO: archive.today blocken Opt-out- oder Opt-in-Funktionen, z. B. mittels robots.txt oder HTML-meta-robots-Tag werden nicht angeboten. Nach Aussagen der Betreiber können Inhalte gelöscht werden, die den Geschäftsbedingungen des Webhosters von Archive.today widersprechen. Archive.today – Wikipedia Es gibt also nur eine Möglichkeit, den Bot in eine Falle zu locken und die IP oder ggf. Useragent zu blockieren. + Multi-Zitat Zitieren
#3 20. November 2014 AW: SEO: archive.today blocken User-Agent wird schwer... IP kann ich zumindest mal blocken, sofern´s nur ein Server ist, was ich aber nicht glaube. Für die, die´s interessiert: Code: ~URL~de:80 144.76.45.17 - - [20/Nov/2014:23:06:44 +0100] "GET /images/home.png HTTP/1.1" 200 933 "http://~URL~de/index.php" "Mozilla/5.0 (compatible; Windows NT 5.1; WOW64) AppleWebKit/535.19 (KHTML, like Gecko) Chrome/19.0.1084.36 Safari/535.19" Ist also ein Server bei Hetzner... Nja, dann sperr ich einfach mal die IP und send dem Webmaster und Hoster ne Abuse-Mail. + Multi-Zitat Zitieren