Mehrfach download verhindern (Skript Optimierung)

« Vorherige1Nächste »

Status: Gelöst | Ubuntu-Version: Ubuntu MATE 14.04 (Trusty Tahr)
Antworten |

Tron0070

Anmeldungsdatum:
22. März 2010

Beiträge: 195

Wohnort: Chemnitz

Zitieren

24. Mai 2016 21:51

Hallo Leute,

Ich möchte von mehreren Seiten Informationen holen. Bisher brauchte ich nur eine Information. Das hab ich folgendermaßen gemacht.

Eine "liste" mit 3 Spalten (URL # Nummer # Kapitel). Mit FOR die "liste" abgearbeitet: Variablen zugeteilt und weiter mit wget und grep.

liste="
http://www.beispiel.de/seite_01.html#86#12
http://www.beispiel.de/seite_02.html#42#8
http://www.beispiel.de/seite_03.html#100#60
"
usw.

stellen=3		# für 001 002 ... 009 ...
for i in `echo $liste` ; 

do
	url=`echo $i |cut -d# -f1`
	nummer=`echo $i |cut -d# -f2`
	kapitel=`echo $i |cut -d# -f3`
	nam=`echo $i |cut -d# -f1 |rev|cut -d/ -f1|rev|cut -d. -f1`


	# -O Dokumente in DATEI schreiben
	# -q keine Ausgabe von Meldungen
	wget -O $pfad/$nam -q $url
	suche=$(cat $pfad/$nam |grep -m1 "Nummer $nummer") # -m1 Stop nach ersten treffer

			if  echo $suche | grep -qw "$kapitel" ; then 
					echo -e " \n\033[42;1;1m S`printf "%.${stellen}i\n" $nummer` E`printf "%.${stellen}i\n" $kapitel` ja --- $nam\033[0m\n"
			else
					echo -e " \033[41;1;1m S`printf "%.${stellen}i\n" $nummer` E`printf "%.${stellen}i\n" $kapitel` nein --- $nam\033[0m"
			fi

	rm $pfad/$nam

done

Jetzt brauche ich aber noch 2 Informationen von z.B. seite_01.html. Gelöst habe ich das erst mal so, dass ich das die in Variablen "liste" eintrage. Es funktioniert, aber wget lädt die Seiten dann zwei mal und das muss ja nicht sein.

Hat eine ne Idee wie das optimiert werden kann?

liste="
http://www.beispiel.de/seite_01.html#86#12
http://www.beispiel.de/seite_01.html#87#1
http://www.beispiel.de/seite_02.html#42#8
http://www.beispiel.de/seite_02.html#43#1
http://www.beispiel.de/seite_03.html#100#60
http://www.beispiel.de/seite_03.html#101#1
"

rklm Team-Icon

Projektleitung

Anmeldungsdatum:
16. Oktober 2011

Beiträge: 12822

Zitieren

24. Mai 2016 23:11

Du kannst die Dateien herunterladen mit den wget-Optionen für das Mirroring. Dann wird jede Seite i.d.R. nur ein mal herunter geladen (es sei denn, sie ändert sich zwischendurch).

Noch besser wäre natürlich, wenn Du Deine Datenhaltung so änderst, dass Du pro URL mehrere Angaben bezüglich zu extrahierender Informationen speicherst. Aber das ist in Shell-Skripten nicht so dolle zu machen, weil das die Datenstrukturen der Shell das nicht so ohne weiteres hergeben.

Noch ein paar generelle Tipps:

Quote Deine Variablen ordentlich - insbesondere, wenn Du den Inhalt nicht kontrollierst wie bei herunter geladenen Webseiten.
Nutze besser die moderne Form der Command Substitution mit $(...) - das liest sich besser als die Backticks und kann geschachtelt werden.
Der `echo $liste` in Zeile 9 ist sowas von überflüssig.
Du bekommst einen Useless Use of Cat Award. 😉

Tron0070

(Themenstarter)

Anmeldungsdatum:
22. März 2010

Beiträge: 195

Wohnort: Chemnitz

Zitieren

25. Mai 2016 02:17

Hallo Robert, danke für Deine Hilfe.

Mehrere Angaben pro URL kam mir auch schon in den Sinn. Ich hatte nur noch keine Idee zur Umsetzung. Aber ich denke da würden weiter Variablen und eine zweite IF abfrage helfen.

http://www.beispiel.de/seite_01.html#86#12#87#1

Zu Deinen generellen Tipps:

Also die letzten 3 habe ich jetzt umgesetzt. Backticks, echo und cat entfernt. Aber zu der Quotierung weiß ich allerdings nicht welche du genau damit gemeint hast.

Tron0070

(Themenstarter)

Anmeldungsdatum:
22. März 2010

Beiträge: 195

Wohnort: Chemnitz

Zitieren

25. Mai 2016 14:51

Also das mit den mehrere Angaben und der zweiten IF funktioniert. Zusätzlich habe ich die Links in ein Datei umgeleitet um "wget --input-file=DATEI" verwenden zu können. Damit läuft es noch etwas schneller.

« Vorherige1Nächste »

Antworten |

« Vorheriges Thema Nächstes Thema »