[Linux] Linux Script zum Crawlen einer Website

Dieses Thema im Forum "Linux & BSD" wurde erstellt von Excelsus, 17. April 2008 .

Schlagworte:
  1. 17. April 2008
    Linux Script zum Crawlen einer Website

    Hallo, ich bräuchte unter Linux folgende Skripte: Crawlen einer Webseite, erzeugen von zwei Ausgabe: Fehler bei internen Links, Fehler bei externen Links Automatisches Senden von Emails an def. Empfängerkreis Da ich aber ehrlich gesagt keine Ahnung von Bash oder ähnliches habe, wende ich mich verzweifelt an euch :-( Wäre super, wenn einer so ein Script hat, oder mir irgendwie Tipps geben könnte. So Long, Exce
     
  2. 17. April 2008
    AW: Linux Script zum Crawlen einer Website

    hey

    weiß nicht ganz was du meinst :/
    du willst websiten "crawlen" dh du willst deren inhalt sortiert in ne db schieben?
    und von welchen fehlern redest du?
    und zu dem email-senden: http://www.tippscout.de/linux-mail-aus-der-kommandozeile-senden_tipp_1750.html
    kannste dann dierekt in ne bash einbauen. einen kleinen grundkurz dazu gibt es hier ---> http://www.tuxhausen.de/kurs_bash_prog.html

    greez myth
     
  3. 17. April 2008
    AW: Linux Script zum Crawlen einer Website

    wenn ich dich richtig verstanden habe, willst du eine seite indezieren und interne links (mit gleicher domain) testen, wenn online > fehler aber sonst nichts und wenn externe links (mit andere domain) offline dann mail schreiben?

    das nötige bash-script dafür wird dir hier wohl niemand schreiben, viel zu komplex. selbst mit php wäre es schon relativ viel arbeit und nur weil du zu faul bist ...

    vielleicht hilft dir wget (vorallem im recursive teil mit link-following) GNU Wget Manual - Recursive Retrieval weiter
     
  4. 18. April 2008
    AW: Linux Script zum Crawlen einer Website

    ziehst dir einfach mit lynx --dump die betreffende seite, in perl zerlegste die dann in reine links und dann lässte auf die rausgefilterten seiten wieder nen lynx laufen um nur die header zu sehen und schaust ob der status im 200 oder 300 bereich ist ( lynx --header müßte das sein)

    Das hat mir ein Freund vorgeschlagen, der Entwickler ist.

    ps: ich bin nicht Faul, nur ich kann es einfach nicht, es ist ja auch nicht für mich, sondern für meinen Chef, der möchte das script haben :-(
     
  5. Video Script

    Videos zum Themenbereich

    * gefundene Videos auf YouTube, anhand der Überschrift.