ubuntuusers.de

HTML Code einer Website per Shell abrufen & analysieren

Status: Ungelöst | Ubuntu-Version: Ubuntu 10.10 (Maverick Meerkat)
Antworten |

romox

Anmeldungsdatum:
22. Mai 2010

Beiträge: 60

Hallo zusammen,

folgendes muss ich mit einem Shell Skript erledigen: es gibt eine Website mit Bild-Captcha. Nach der Eingabe des Codes gelange ich auf die selbe Seite, nur es werden jetzt Links angezeigt. Diese Links führen zum Skript auf der selben Domain, die den Browser per Redirect zur passenden RapidShare Download sendet. Ich würde allerdings gerne eine Liste mit den entschlüsselten RS Links erstellen. Muss dann etwa folgendermaßen aussehen: ich rufe mein Skript in Shell auf, gebe den Link ein, erhalte die Captchagrafik und gebe den Code ein. Danach sollte mein Skript den erhaltenen HTML Code mit regulären Ausdrücken nach Links durchsuchen, diesen folgen und den Redirect-Link in einer Liste speichern bzw. die Liste zum Schluss ausgeben.

Habe momentan leider gar keine Ahnung, welche Befehle ich hierzu brauche, da ich noch ein Neuling in der Linux Welt bin.

Kann mir jemand die Richtung andeuten und eventuell sagen, mit welchen Befehlen ich mich da beschäftigen soll?

Viele Dank schon mal im Voraus

jerik

Avatar von jerik

Anmeldungsdatum:
19. August 2006

Beiträge: 425

da gibts wieder viel sand am strand und unterschiedliche Lösungen wie du das machen kannst. Hier kannst du dich Grundlegend schlau machen: http://de.wikipedia.org/wiki/Web_Scraping

Bei simplen sachen, hab ich das mit wget und grep gelöst. Wenns komplizierter wird solltest du zu tools greifen die das besser können. Gibt da einige für unterschiedlichen sprachen, bspw. ruby oder perl. Unten im wikipediaartikel sind ein paar weiterführenden links.

Ich selbst hab bissle mit ruby und dem gem hpricot rumgespielt und war zufrieden mit den ergebnissen.

cheers – jerik

romox

(Themenstarter)

Anmeldungsdatum:
22. Mai 2010

Beiträge: 60

Vielen Dank, jerik,

dann kann ich die Dateien halt per wget local abspeichern und im nächsten Schritt wieder löschen. Suchen muss ich mit grep, das ist mir soweit klar. Wie kann ich aber Strings in Variablen oder noch besser in Arrays abspeichern? Gibt es hier so etwas?

uname

Anmeldungsdatum:
28. März 2007

Beiträge: 6030

Wohnort: 127.0.0.1

Die Befehle wie "wget" und weitere musst du ja noch irgendwie zusammenbauen. Du kannst z.B. Shellprgrammierung nutzen oder eine Sprache wie z.B. Perl. Sprachen wie Perl haben den Vorteil, dass sie meist Tools wie Webdownloader, Parser usw. als Bibliotheken vorhalten.

Antworten |