ubuntuusers.de

Wie lade ich die Internetseite/archiv imslp.org komplett herunter?

Status: Ungelöst | Ubuntu-Version: Ubuntu 17.04 (Zesty Zapus)
Antworten |

FAQuLinusTorvalds

Anmeldungsdatum:
8. August 2017

Beiträge: Zähle...

Hallo liebes Forum,

wie lade ich die Seite imslp.org automatiesiert herunter? Dort stehen ca. 500.000 pdfs zum Download bereit. Ich schätze, dass meine 2x2TB Festplatten dass nicht komplett speichern können. Deswegen möchte ich gern systematisch vorgehen. Beispielsweise mit allen Werken von J.S. Bach, danach Mozart, Beethoven, usw... Also nach Musiker geordnet herunterladen.

Gibt es im Terminal ein Skript dafür? Gibt es auch ein grafisches Programm als Alternative?

Danke im voraus auf die Antworten.

LG

voxxell99

Avatar von voxxell99

Anmeldungsdatum:
23. September 2009

Beiträge: 3931

Wohnort: da, wo andere Urlaub machen. :)

Willkommen im Forum!

Hast du dich zunächst mal informiert, ob das überhaupt erlaubt ist? Wenn das viele Leute machen, bricht womöglich der Server zusammen...

Bitte beachten Sie, dass Dateien die sowohl in den USA als auch in der EU geschützt sind, für den Zugriff gesperrt sind, da die juristische Person der IMSLP gehört in den Vereinigten Staaten beheimatet ist. Dateien, die in den USA geschützt, aber in Kanada und der EU gemeinfrei sind, sind nur auf dem unabhängigen EU-Server erhältlich.

user_unknown

Avatar von user_unknown

Anmeldungsdatum:
10. August 2005

Beiträge: 17625

Wohnort: Berlin

FAQuLinusTorvalds schrieb:

Gibt es im Terminal ein Skript dafür?

Wenn man eins schreibt.

Mit curl oder wget geht das. Beide haben eine manpage und reagieren auf --help .

Du brauchst eine Systematik, wie die Unterseiten heißen, bzw. wie Du die Seiten mit den Werken findest. Sieht ja aus, als gäbe es alphabetische Listen von Komponisten. Die Liste kannst Du runterladen. Dann darin die Komponistenseiten abklappern. Bei Bach passen die Werke gar nicht auf eine Seite, d.h. da musst Du noch erkennen, dass es weitere Seiten gibt.

Folgt man auf Seite 1 einem Link, etwa Fantasia and Fugue in A minor, BWV 904 (Bach, Johann Sebastian), so findet man dort einen Link zum mp3, das man herunterladen könnte - siehe dazu voxxell99s Hinweis: http://imslp.org/wiki/File:PMLP179286-Fantasie_and_Fugue_-_JS_Bach_BWV904.mp3 . Einen Link zu europäischen Servern, die mit europäischem Recht verträglich sein sollen, habe ich nicht gefunden (in 10 Sekunden).

Manche Werkstitel linken auch zu Seiten, wo sich kein mp3 findet.

Ah - ich sehe, Du bist auf die PDFs aus? Noten oder was? Da könnten 4 TB vielleicht genügen. Hier gibt es 2 Versionen, wie mir scheint. Willst Du dann alle? Eine 0,4 MB, eine 1MB. Davon bekämst Du also 4 Millionen bis 1 Mrd. gespeichert.

http://imslp.org/wiki/File:PMLP08009-Fantaisie_and_Fugue_in_A_minor,_BWV_904.pdf

FAQuLinusTorvalds

(Themenstarter)

Anmeldungsdatum:
8. August 2017

Beiträge: 31

Hallo Forum,

bei der Seite imslp.org handelt es sich um cc0-Lizenzen von verstorbenen Musikern. Ich bin nur an die Noten interessiert. Das ganze will ich selber kommeziel nutzen → Noten verkaufen. Deswegen möchte ich so viel wie möglich herunterladen. Das einzeln herunterzuladen, ist zu aufwendig. Desewgen brauche ich ein grafisches Programm/Skript. Ich habe vor mehrehen Jahren die Seite vokabel.org erfolgreich heruntergeladen. Das hatte ich dammals mit HTTrack (Windows) gemacht. Allerdings ist vokabel.org leichter aufgebaut als imslp.org. Und in diesem Fall muss ich noch filtern (Komponisten, nur Noten, keine mp3). Was das Rechtliche betrifft mache ich mir keine Sorgen.

Was ratet ihr mir? Ist es überhaupt technisch möglich die Seite gezielt (z.B. nur Noten von Bach) und automatiesiert heunterzuladen?

In der zwischenzeit schaue ich mir mal curl an.

LG

FAQuLinusTorvalds

(Themenstarter)

Anmeldungsdatum:
8. August 2017

Beiträge: 31

Im Terminal konnte ich bereits eine einzelene Datei herunterladen:

curl http://ks.petruccimusiclibrary.org/files/imglnks/usimg/7/73/IMSLP65816-PMLP10093-Bach-JS_Ach_bleib_bei_uns_BWV649.pdf >bach001.pdf

seahawk1986

Anmeldungsdatum:
27. Oktober 2006

Beiträge: 11267

Wohnort: München

FAQuLinusTorvalds schrieb:

bei der Seite imslp.org handelt es sich um cc0-Lizenzen von verstorbenen Musikern. Ich bin nur an die Noten interessiert. Das ganze will ich selber kommeziel nutzen → Noten verkaufen.

Das Kopieren von Noten ist hierzulande aufgrund des Urheberrechts etwas tricky - die Webseite bietet ja nach eigener Aussage Scans von Werken an, die nach kanadischem Recht angeblich ohne Urheberrechtsschutz sind und die CC0-Lizenz sagt ja nur, dass der Lizenzgeber auf eigene Ansprüche verzichtet, aber nicht, dass es der Rest der Welt auch tut. Da könnte z.B. noch jemand Urheberrechtsansprüche für das Arrangement bzw. die Bearbeitung der Noten eines gemeinfreien Werkes halten (z.B. wegen den genannten Punkten in http://www1.stuttgart.de/stadtbibliothek/mub/Merkblatt_Notenkopieren.pdf).

Was ratet ihr mir?

Im Zweifelsfall: Rechtsberatung durch jemanden, der sich damit auskennt.

Ist es überhaupt technisch möglich die Seite gezielt (z.B. nur Noten von Bach) und automatiesiert heunterzuladen?

Natürlich ist es technisch möglich, wenn man sich ein bisschen ins Scraping von Webseiten einliest. Die viel wichtigere Frage ist, ob man es kommerziell verwerten kann ohne Ärger zu bekommen.

In der zwischenzeit schaue ich mir mal curl an.

Ich würde da bei komplexen Seiten eher in Richtung mechanize denken.

rklm Team-Icon

Projektleitung

Anmeldungsdatum:
16. Oktober 2011

Beiträge: 13219

seahawk1986 schrieb:

Ich würde da bei komplexen Seiten eher in Richtung mechanize denken.

Gibt es auch für Ruby. ☺

FAQuLinusTorvalds

(Themenstarter)

Anmeldungsdatum:
8. August 2017

Beiträge: 31

Terminaleingabe: $ sudo pip2 install mechanize

Fehlermeldung:

sudo: pip2: command not found

Muss ich pip2 nachinstallieren?

Wegen diesen rechtlichen Sachen braucht ihr euch einen Kopf machen. Ich habe genügend rechtliches Wissen, um grinsend und mit erhoben Stinkefinger zu sagen: "Der Rechtsweg bleibt ihnen offen." Ein Hoch auf unser tolles [baalsches] Recht[sbeugesystem]!

seahawk1986

Anmeldungsdatum:
27. Oktober 2006

Beiträge: 11267

Wohnort: München

rklm schrieb:

Gibt es auch für Ruby. ☺

Ja, von http://search.cpan.org/~oalders/WWW-Mechanize-1.86/lib/WWW/Mechanize.pm gibt es einige Abkömmlinge für weniger esoterische Sprachen ☺

FAQuLinusTorvalds schrieb:

Terminaleingabe: $ sudo pip2 install mechanize

Fehlermeldung:

sudo: pip2: command not found

Muss ich pip2 nachinstallieren?

Es genügt sich zu überlegen, wie bei Ubuntu Python2-Pakete benannt sind und dann das fertige Paket zu installieren: https://packages.ubuntu.com/zesty/python-mechanize

FAQuLinusTorvalds

(Themenstarter)

Anmeldungsdatum:
8. August 2017

Beiträge: 31

1) python-mechanize in synaptic heruntergalden und installiert

seahawk1986

Anmeldungsdatum:
27. Oktober 2006

Beiträge: 11267

Wohnort: München

Der Rest bleibt als triviale Übung demjenigen überlassen, der damit Geld verdienen will... 😈

FAQuLinusTorvalds

(Themenstarter)

Anmeldungsdatum:
8. August 2017

Beiträge: 31

2) alle Pakete die unter der Suche "mechanize" erscheinen heruntergeladen und instlliert.

FAQuLinusTorvalds

(Themenstarter)

Anmeldungsdatum:
8. August 2017

Beiträge: 31

3) mklibs-copy heruntergalden und installiert

FAQuLinusTorvalds

(Themenstarter)

Anmeldungsdatum:
8. August 2017

Beiträge: 31

4) $ sudo apt update

5) $ sudo apt list --upgradeable

FAQuLinusTorvalds

(Themenstarter)

Anmeldungsdatum:
8. August 2017

Beiträge: 31

6) $ sudo add-apt-repository ppa:jonathonf/python-3.6

7) $ sudo apt update

8) $ sudo apt install python3.6

Antworten |