whocares02
Anmeldungsdatum: 11. Januar 2013
Beiträge: 454
|
Hallo Forum,
ich habe hier eine Frage, die in keine der vielen Unterforen passt: Ich suche nach einer Möglichkeit, mehrere Webseiten nach einem Begriff zu durchsuchen. Zum Beispiel, um Freeware-Seiten mit eigenen Download-Servern zu durchsuchen. Davon gibt es nicht mehr viele. In der Regel sind das Online-Magazine, wie Chip, Netzwelt oder Heise oder die wenigen Spezial-Seiten, wie Filehippo, Filehorse oder Cnet. Um eine Webseite zu durchsuchen, gibt es gemeinhin den site:-Befehl, der aber in der Regel nicht mehrfach verwendet werden kann. Hier habe ich einen Artikel einer Professorin für Recherche gefunden, die den site:-Befehl mit allen möglichen Suchmaschinen durchprobiert hat.
Das Ergebnis: Bei keiner der getesteten Suchmaschinen kann der Suchraum auf die eigene Webseiten-Auswahl eingegrenzt werden. Meine Frage ist also: Kennt jemand einen Service, eine Software oder irgendeinen anderen Trick, um eine gezielte Internetsuche durchzuführen?
Moderiert von kB: Aus dem Forum „Netzwerk und Internetzugang einrichten“ in einen besser passenden Forenbereich verschoben. Bitte beachte die als wichtig markierten Themen („Welche Themen gehören hier her und welche nicht?“) im jeweiligen Forum! Danke.
|
kB
Supporter, Wikiteam
Anmeldungsdatum: 4. Oktober 2007
Beiträge: 9785
Wohnort: Münster
|
whocares02 schrieb: […] eine Frage, die in keine der vielen Unterforen passt
Dann passt sie wahrscheinlich nicht in den Themenkanon von UbuntuUsers.de. Lese dazu bitte auf der Partalseite den ersten Satz. Deine Frage zur Bedienung eines Programms passt aber jedenfalls zum Forum, welches sich mit der Bedienung von Programmen beschäftigt. Auch die Google-Suchmaschine ist ein Programm.
|
noisefloor
Anmeldungsdatum: 6. Juni 2006
Beiträge: 29567
|
Hallo,
Kennt jemand einen Service, eine Software oder irgendeinen anderen Trick, um eine gezielte Internetsuche durchzuführen?
Du kannst dir selber ein Programm / Skript schreiben, was genau das macht, also mehrere Webseiten bzw. die API der Suchmaschine parallel abfragen und dann die Ergebnisse zusammenführt und darstellt. Das geht z.B. mit Python und dem requests-Modul, ist aber sicherlich auch ohne Probleme mit anderen Programmiersprachen machbar. Gruß, noisefloor
|
whocares02
(Themenstarter)
Anmeldungsdatum: 11. Januar 2013
Beiträge: 454
|
Klingt kompliziert. Habe noch wenig Programmiererfahrung, noch gar keine mit Python. Die Ausgabe müsste dann ja wieder in Form einer Webseite erfolgen. Gibt's da wirklich keine einfachere Lösung? Ich bin doch sicher nicht der erste mit dem Problem.
|
homer65
Anmeldungsdatum: 8. November 2005
Beiträge: 586
Wohnort: bochum, germany
|
Was genau verstehst Du unter einer Webseite? Wenn ich z.B. an unsere Schachvereinswebseite denke, so sind das mehrere mit einander verlinkte Seiten. Würdest du auch alle "Unterseiten" durchsuchen wollen? Oder reicht es Dir eine mit einen HTTP GET erreichbare Seite auszulesen? Was sie Sache wesentlich vereinfachen würde.
|
noisefloor
Anmeldungsdatum: 6. Juni 2006
Beiträge: 29567
|
Hallo,
Was genau verstehst Du unter einer Webseite?
Mit site:ubuntuusers.de Shell als Suchbegriff suchst du bei den meisten Suchmaschinen auf _nur_ Seite ubuntuusers.de nach dem Suchbegriff Shell . Der TE braucht aber so was wie site:ubuntuusers.de;debianforum.de;linuxmintusers.de Shell (← Hinweis für die Nachwelt: das ist _keine_ gültige Syntax!), um gleichzeitig auf diesen drei Webseiten (und sonst nirgendwo im Web!) nach Shell zu suchen. Das geht aber nicht. Gruß, noisefloor
|
homer65
Anmeldungsdatum: 8. November 2005
Beiträge: 586
Wohnort: bochum, germany
|
Dann ist wohl mit "Unterseiten" gemeint. Da würde ich empfehlen nicht von Grund auf neu zu programmieren, sondern so etwas wie https://scrapy.org zu nutzen.
|
noisefloor
Anmeldungsdatum: 6. Juni 2006
Beiträge: 29567
|
Hallo, @homer65: ich denke, Webscraping ist nicht gemeint / gesucht. Nach meinem Verständnis meint der TE mit "Webseite" eine URL inkl. aller Unterseiten. Wenn es um Download-Seiten mit wahrscheinlich seeeehr vielen Unterseite geht, ist auf eine Suchmaschine zurückzugreifen schon der richtige Ansatz. a) dauert das mit Webscraping zu lange und b) blockt dich wahrscheinlich jeder wohlkonfigurierte Webserver relativ schnell, wenn du massiv in kurzer Zeit da Seiten abrufst. Gruß, noisefloor
|
seahawk1986
Anmeldungsdatum: 27. Oktober 2006
Beiträge: 11269
Wohnort: München
|
Google bietet eine Suche über mehrere site: Parameter an - man muss die einzelnen Seiten dann mit OR verknüpfen - klassischer Fall von RTFM: https://support.google.com/websearch/answer/2466433 Also z.B.:
linux and site:heise.de OR site:chip.de OR site:netzwelt.de
|
whocares02
(Themenstarter)
Anmeldungsdatum: 11. Januar 2013
Beiträge: 454
|
Jaja Seahawk, RTFM. Du hättest wohl besser auch mal den verlinkten Artikel lesen sollen:
Genau Deinen Vorschlag hat die Professorin ausprobiert. Ist nur eine große Tabelle, nicht schwer zu übersehen. Hier der Teil für Google:
Suchmaschine:
Google Suchanfrage:
(site:en.wikipdia.org integral) OR (fr.wikipedia.org intégrale) OR (de.wikipedia.org Intergral) Ergebnis:
nichts Kleiner Spoiler: Bei allen anderen Suchmaschinen steht in Ergebnisspalte so ziemlich das Gleiche.
|
seahawk1986
Anmeldungsdatum: 27. Oktober 2006
Beiträge: 11269
Wohnort: München
|
whocares02 schrieb: Jaja Seahawk, RTFM. Du hättest wohl besser auch mal den verlinkten Artikel lesen sollen:
Genau Deinen Vorschlag hat die Professorin ausprobiert. Ist nur eine große Tabelle, nicht schwer zu übersehen. Hier der Teil für Google:
Suchmaschine:
Google Suchanfrage:
(site:en.wikipdia.org integral) OR (fr.wikipedia.org intégrale) OR (de.wikipedia.org Intergral) Ergebnis:
nichts
Das ist eine andere Konstellation als die von dir gestellte Eingangsfrage: whocares02 schrieb: Ich suche nach einer Möglichkeit, mehrere Webseiten nach einem Begriff zu durchsuchen.
Die Dame suchte da nach mehreren Suchbegriffen auf mehreren Seiten gleichzeitig, nicht einen Begriff auf mehreren Seiten. Von einer Gruppierung von Einzelsuchen mit Klammern ist in der aktuellen Beschreibung der Suchmaschine von Google keine Rede - und das war soweit ich weiß schon vor Jahren so, vgl. z.B. https://musingsaboutlibrarianship.blogspot.com/2015/10/6-common-misconceptions-when-doing.html Punkt 6: So what happens if you want (a b) OR (x y) ? Typing that out won't work in Google since it actually gives you a AND (b OR x) AND Y, but here's a complicated untested idea.
|
whocares02
(Themenstarter)
Anmeldungsdatum: 11. Januar 2013
Beiträge: 454
|
Ich sehe gerade, Du hast trotzdem Recht. In dem Artikel wurde "site:" in den Klammern nicht benutzt. Die Autorin hat also einen Syntaxfehler gemacht (genau wie ich). Diese Suchanfrage scheint zu funktionieren: ((site:www.netzwelt.de)OR(site:www.chip.de) OR (site:filehippo.com) OR (site:www.oldversion.com))AND winamp ...getestet mit Google, Duckduckgo, IXQuick und Ecosia. Werde damit noch ein bißchen rumspielen. Das eröffnet ja ungeheure Möglichkeiten. Ich könnte mir eine HTML-Seite basteln, mit "Thema-Suchmaschinen": Alle wichtigen Freewareseiten, alle 3D-Druck-Seiten (Thingiverse etc.), alle guten Technik-Foren. Voll geil. Danke schonmal.
|
seahawk1986
Anmeldungsdatum: 27. Oktober 2006
Beiträge: 11269
Wohnort: München
|
Wenn man die Spaces zwischen den Begriffen beachtet, dann liefern
((site:www.netzwelt.de) OR (site:www.chip.de) OR (site:filehippo.com) OR (site:www.oldversion.com)) AND winamp
und
site:www.netzwelt.de OR site:www.chip.de OR site:filehippo.com OR site:www.oldversion.com winamp soweit ich das sehen kann bei allen auf der Google Suche aufbauenden Suchmaschinen identische Ergebnisse (alle Ausdrücke sind Standardmäßig AND-Verknüpft und Klammern spielen - wie schon erwähnt - keine Rolle) - letzteres ist wesentlich bequemer zu schreiben. Ecosia nutzt Bing, das im Gegensatz zu Google etwas andere Suchoperatoren anbietet und eine dokumentierte Reihenfolge dafür hat (vgl. https://help.bing.microsoft.com/#apex/18/en/10002/-1). Wichtig, wenn man umfangreiche Suchanfragen stellen will, ist, dass Bing nur die ersten 10 Suchbegriffe berücksichtigt.
|
whocares02
(Themenstarter)
Anmeldungsdatum: 11. Januar 2013
Beiträge: 454
|
Unsere Antworten haben sich gekreuzt. Hab mit Begeisterung Deinen verlinkten Blog-Beitrag gelesen. Da stehen ja super-interessante Sachen: 1. Klammern funktionieren (wie bereits festgestellt) nirgendwo. 2. OR klammert unsichtbar 3. PLUS funktioniert seit 2011 nicht mehr bei Google 4. Mit AROUND ([Zahl]) definiert man zwei zusammengehörende Wörter. Die Zahl ist dann die maximale Anzahl Wörter, die zwischen den zwei Wörtern liegen darf.
Damit kann man gegen das Pageranking vorgehen! Muss ich unbedingt ausprobieren. 5. Man kann fast überall den Stern-Operator verwenden! Sehr nützlich in Kombination mit "site:" Recht interessantes habe ich auch auf der Syntax-Hilfe-Seite von Duckduckgo gefunden: Mit Plus und Minus kann man dort Wörter gewichten:
cats -dogs Fewer dogs in results
cats +dogs More dogs in results
Außerdem möchte ich noch einen persönlichen Tipp loswerden: mit "inurl:" kann der Suchraum anhand der Webadresse eingegrenzt werden: "inurl:forum" verwandelt eine Suchmaschine in eine Foren-Suchmaschinen, weil ja fast jedes Forum, das Wort "forum" in der Webadresse hat. Ich denke, ich kann das das Thema als gelöst markieren. Diskutiere aber gerne noch weitere nützliche Suchfunktionen.
|