Nachdem ich CirrusSearch mit ElasticSearch im Hintergrund zum Laufen gebracht habe, möchte ich diese jetzt zur Volltextsuche in Dateien nutzen (PDF, ODT, DOCX etc.). Ich war eigentlich davon ausgegangen, dass dies aus der Kiste heraus (out of the box) funktioniert. Indiziert werden allerdings nur die Dateinamen (kann ich mir im ElasticSearchIndex anschauen), nicht aber die Dateiinhalte. Brauche ich dann irgendetwas wie den Befehl pdftotext aus dem Paket poppler-utils und muss das dann irgendwie über eine Anpassung der PHP-Skripte von CirrusSearch für die Indizierung nutzen? Oder gibt es da vielleicht einen einfacheren Weg mit CirrusSearch oder einer Alternative? Am besten plattformunabhängig (Windows-kompatibel).
Edit: Jemand anderes hat kürzlich die gleiche Frage auf Mediawiki.org gestellt, aber bisher ohne Antwort.
Moderiert von misterunknown:
Dieses Thema ist verschoben worden.