Alle URL’s einer Website auslesen

22. August 2012

Ich wollte alle Links einer Website auslesen. Hierbei bin ich auf die Anleitung „URL-Listen mit wget“ gestoßen.

wget -r –spider -l3 http://www.example.de  -o urlliste.txt

funktionierte prima, die nachträgliche Bereinigung lief jedoch auf einen Fehler, da grep den regulären Ausdruck nicht kannte:

cat urlliste.txt | grep -P „–d{4}“ | cut -d “ “ -f 4 | sort | uniq > urlliste_endgueltig.txt

Statt diesem Aufruf habe ich es mit egrep probiert und siehe da, es funktioniert:

cat urlliste.txt | egrep -o „http:.*“ | sort | uniq > urlliste_endgueltig.txt

Das Ergebnis ist eine Liste aller Hyperlinks auf der durchsuchten Website.

 

Advertisements

Kangoo´s Blog

Just another WordPress.com site