Ich wollte alle Links einer Website auslesen. Hierbei bin ich auf die Anleitung „URL-Listen mit wget“ gestoßen.
wget -r –spider -l3 http://www.example.de -o urlliste.txt
funktionierte prima, die nachträgliche Bereinigung lief jedoch auf einen Fehler, da grep den regulären Ausdruck nicht kannte:
cat urlliste.txt | grep -P „–d{4}“ | cut -d “ “ -f 4 | sort | uniq > urlliste_endgueltig.txt
Statt diesem Aufruf habe ich es mit egrep probiert und siehe da, es funktioniert:
cat urlliste.txt | egrep -o „http:.*“ | sort | uniq > urlliste_endgueltig.txt
Das Ergebnis ist eine Liste aller Hyperlinks auf der durchsuchten Website.