schlechtlangweiligOKgutsehr gut (6 votes, average: 4,17 out of 5)
Loading...

wget und robots.txt

Per Default Einstellung folgt wget der robots.txt. Sprich er lädt diese runter und schaut nach ob er z.b. eine bestimmte Datei runterladen darf oder nicht.
Wenn nun z.b. in der robots.txt drinsteht das kein Robot etwas runterladen darf:

Wenn man nun wget im Debug Modus startet

kommt etwa eine solche Meldung

Wenn man nun einmal bei wget sich die Hilfe anscahut

Wird man dort leider keine Lösung dazu finden.
Aber das wget Handbuch gibt da schon mehr Auskünfte. In der Sektion 9.1 vom Handbuch wird beschrieben wie man die robots.txt umgeht.
Entweder mittels der wget Konfigurationsdatei .wgetrc das ist dann für immer oder für den einmaligen Gebruach als Schalter auf der Konsole.
Der Part in der .wgetrc wird von

zu

geändert.

Für den einmaligen gebruach empfiehlt sich es aber dies mittels Schalter auf der Kommandozeile zu erledigen. Der schalter dafür ist -e robots=off

Dadurch wird die Überprüfung der robots.txt umgangen und wget fährt ohne murren fort.
Sollte der User-Agent „wget“ durch eine Regel in der .htaccess oder in der Webserver konfiguration geblockt sein, kann man den User-Agent ändern. Das ist aber ein andere Kapitel 😉

Eine Reaktion zu “wget und robots.txt”

  1. Posted by McD am 16 Apr 2015 um 21:07

    danke.

Einen Kommentar schreiben