ubuntuusers.de

leistungsfähige Suchmaschine für sehr viele Dateien

Status: Ungelöst | Ubuntu-Version: Nicht spezifiziert
Antworten |

linuxone

Anmeldungsdatum:
15. Januar 2007

Beiträge: Zähle...

Hallo,

ich suche eine Software (irgendeine!) zum indexieren von Dateien auf einer etwas dickeren Festplatte, um diese anschliessend durchsuchen zu können. Wird nur im lokalen Intranet und nicht im offenen Internet eingesetzt.

Auf der Festplatte sind derzeit mehrere hundert GB mit zig Millionen Dateien verschiedener Art gespeichert, im wesentlichen: txt, E-Mails (als mbox), pdf, rtf, doc, xls, html, Archive. Natürlich sollen all diese Format indexiert und durchsucht werden können. Ein ausreichend leistungsfähiger PC sollte dafür vorhanden sein.

Die bisher getesteten gängigen Desktop Suchmaschinen sind nicht für diese Datenmenge konzipiert und versagen alle früher oder später. Deswegen suche ich eine Software, die das effektiv bewältigen kann.

Danke!
Thomas

flomar Team-Icon

Avatar von flomar

Anmeldungsdatum:
13. November 2005

Beiträge: 3188

Wohnort: Wien

Hallo Thomas,

Die bisher getesteten gängigen Desktop Suchmaschinen sind nicht für diese Datenmenge konzipiert und versagen alle früher oder später. Deswegen suche ich eine Software, die das effektiv bewältigen kann.

Da kann ich nun auch nur raten, was du unter gängigen Suchmaschinen meinst, der Dauerbrenner heißt Beagle, aber denn wirst du wohl schon kennen. Ausserdem ist gerade die Google Desktopsuche für Linux erschienen, wenn du also keine Geheimnisse hast, nur zu.

hoergen Team-Icon

Ehemalige
Avatar von hoergen

Anmeldungsdatum:
8. Juni 2006

Beiträge: 2313

Wohnort: Berlin

Oder auch strigi : http://strigi.sourceforge.net/

Dem hoergen

linuxone

(Themenstarter)

Anmeldungsdatum:
15. Januar 2007

Beiträge: 5

Hi,

flomar hat geschrieben:

Da kann ich nun auch nur raten, was du unter gängigen Suchmaschinen meinst, der Dauerbrenner heißt Beagle, aber denn wirst du wohl schon kennen. Ausserdem ist gerade die Google Desktopsuche für Linux erschienen, wenn du also keine Geheimnisse hast, nur zu.

Beagle ist nett für den Desktop PC zu Hause mit ein paar tausend Dateien ... hier geht es um mehrere hundert GB Daten, die sich auf mehrere dutzend Millionen Dateien verteilen (mein letzter Stand, vielleicht ist es auch schon im 3-stelligen Bereich). Auf meinen PC zu Hause (Intel E6600, 4 GB RAM) zeigt das Mono basierende Beagle eine Performance, die für den Desktop PC gerade ausreicht, ein Indexieren von dutzenden Millionen Dateien aller Art bei diesem Tempo aber keinen Sinn macht.
Deswegen habe ich Beagle bisher nur zu Hause, nicht aber auf den echten Daten ausprobiert - es sei denn, es gibt Erfahrungswerte, dass es auch bei einer derartigen Menge in akzeptabler Weise funktioniert?

Google Desktop für Linux ist zu neu, deswegen bisher nicht getestet. Im englischen Google Linux Forum sind aber erste Infos über eine extrem niedrige Performance beim Indexieren zu lesen - deswegen wohl erst einmal noch nicht geeignet für einen Test.
Anfangs hatten wir auch mal Google Desktop für Windows versucht. Das war allerdings absolut untauglich, da es nur einen Bruchteil der Dateien indexiert hat und viele Sachen nicht finden konnten, die definitiv enthalten sind. Auch diese Software ist eigentlich nur für den normalen Desktop PC konzipiert, nicht für die hier vorliegenden Anforderungen.

Strigi kannte ich bisher noch nicht. Allerdings ist die Liste der unterstützten Dateiformate zu kurz als das ein Test in der aktuellen Version Sinn machen würde. Da fehlen einige Formate, die vorhanden sind und zwingend auch suchfähig sein müssen.

Thomas

hoergen Team-Icon

Ehemalige
Avatar von hoergen

Anmeldungsdatum:
8. Juni 2006

Beiträge: 2313

Wohnort: Berlin

Aloa,

hmm vielleicht verstehe ich ja zuwenig davon, aber wenn Beagle alleine der Performance zuwenig bringt .. was spricht dagegen, den Rechner mal über Nacht laufen zu lassen, bis er mit der Indexierung durch ist? Denn soweit ich Dich verstanden habe, ist Beagle eigentlich schon so Deine Wahl .. außer der Performance. Oder ändern sich die Daten kontinuierlich?

Dem hoergen

linuxone

(Themenstarter)

Anmeldungsdatum:
15. Januar 2007

Beiträge: 5

Hi,

hoergen hat geschrieben:

hmm vielleicht verstehe ich ja zuwenig davon, aber wenn Beagle alleine der Performance zuwenig bringt .. was spricht dagegen, den Rechner mal über Nacht laufen zu lassen, bis er mit der Indexierung durch ist? Denn soweit ich Dich verstanden habe, ist Beagle eigentlich schon so Deine Wahl .. außer der Performance. Oder ändern sich die Daten kontinuierlich?

braucht Stunden um ein paar zehntausend Dateien zu indexieren .... eine Wartezeit von Wochen für dutzende Millionen ist aus naheliegenden Gründen inakzeptabel. Ausserdem stellen sich dann noch andere Fragen, z.B.: wie gross wird der Index bei dieser Datenmenge sein, wie schnell können zig GB Indexdaten durchsucht werden, wie gut kann die Software mit einem 50 GB oder noch grösserem Index umgehen. Und wie schnell ist die Aktualisierung des Index, wenn sich Daten ändern oder neu hinzukommen?!

Meine Wahl ist Beagle in diesem Sinne nicht. Eine Wahl habe ich bisher nicht getroffen, besser gesagt: wir haben derzeit keine wirklich brauchbare Lösung für dieses Problem sondern suchen nach wie vor danach.

Thomas

Solid1986Snake

Avatar von Solid1986Snake

Anmeldungsdatum:
29. Juli 2006

Beiträge: 1215

Wohnort: Seigertshausen

Eine Mundgerechte Lsg kann ich dir leider auch nicht bieten, allerdings kenne ich noch ein paar Desktop-Suchmaschinen, villeicht findest du ja da etwas passendes:

Zum einen ist da noch recoll eine auf Xapian aufbauende Suchmaschine http://www.linux.com/articles/114283

Zum anderen fällt mir da noch Tracker ein. Zu diesem Tool gibt es auch einen Wiki Artikel in der Baustelle, allerdings ist das Progrämmchen sehr ähnlich zu Beagle und wird daher deine Anforderungen nicht erfüllen...

Antworten |