SEO: archive.today blocken

Creused · 20. November 2014

Hallo,

sicherlicht kennt der ein oder andere archive.today - webpage capture
Da dieser Bot weder die Robots.txt und noch den Eintrag "noindex" befolgt, will ich den nun aussperren.

"Do you delete my stored page(s) ?

Pages which violate our hoster's rules (cracks, ♂️♀️, etc) may be deleted. Also, completely empty pages (or pages which have nothing but text like “502 Server Timeout”) may be deleted."

Die Frage ist nur.. wie?

Hat da jemand eine Ahnung, wie ich das machen könnte?

Anzeige

raid-rush · 20. November 2014

AW: SEO: archive.today blocken

Opt-out- oder Opt-in-Funktionen, z. B. mittels robots.txt oder HTML-meta-robots-Tag werden nicht angeboten. Nach Aussagen der Betreiber können Inhalte gelöscht werden, die den Geschäftsbedingungen des Webhosters von Archive.today widersprechen. Archive.today – Wikipedia

Es gibt also nur eine Möglichkeit, den Bot in eine Falle zu locken und die IP oder ggf. Useragent zu blockieren.

Creused · 20. November 2014

AW: SEO: archive.today blocken

User-Agent wird schwer...
IP kann ich zumindest mal blocken, sofern´s nur ein Server ist, was ich aber nicht glaube.

Für die, die´s interessiert:

Code:

~URL~de:80 144.76.45.17 - - [20/Nov/2014:23:06:44 +0100] "GET /images/home.png HTTP/1.1" 200 933 "http://~URL~de/index.php" "Mozilla/5.0 (compatible; Windows NT 5.1; WOW64) AppleWebKit/535.19 (KHTML, like Gecko) Chrome/19.0.1084.36 Safari/535.19"

Ist also ein Server bei Hetzner...
Nja, dann sperr ich einfach mal die IP und send dem Webmaster und Hoster ne Abuse-Mail.

Nützliche Suchen

SEO: archive.today blocken

Videos zum Themenbereich