ubuntuusers.de

Vorschläge zur Suche

Status: Gelöst | Ubuntu-Version: Nicht spezifiziert
Antworten |

BigMc

Avatar von BigMc

Anmeldungsdatum:
18. März 2007

Beiträge: 1814

Moin,

zu diesem Posting:

Es wäre ja schön, wenn bei Wikiseiten der Anfang angezeigt würde und nicht irgendwas von mittendrin. Kann man nicht einfach aus dem Quelltext alles was in {{{ }}} oder [[ ]] steht rausschmeißen und aus dem Rest den Text für die Suche generieren?

Gruß, BigMc

barcc

Avatar von barcc

Anmeldungsdatum:
13. Juli 2007

Beiträge: 696

Wohnort: Dortmund

Sehe ich auch so, die Einleitung ist bei Wikiseiten das interessanteste, egal ob dort der Suchausdruck vorkommt oder nicht. Zur Zeit steht der Suchausdruck oft am Anfang und der Satzanfang wird abgeschnitten. Dadurch ist der Textausschnitt teilweise etwas unverständlich.

Außerdem werden teilweise die Titel abgeschnitten, z.B. Suche nach partition ergibt:

Der Titel sollte eigentlich immer vollständig zu lesen sein.

Gruß, barcc

EnTeQuAk Team-Icon

Avatar von EnTeQuAk

Anmeldungsdatum:
17. Mai 2006

Beiträge: 3289

Das Problem ist, das der Text keinerlei derartige semantische Auszeichnungen hat. Daher ist es uns unmöglich derartige Informationen zu extrahieren. Die „Zusammenfassung” wird quasi direkt aus dem gerenderten HTML erzeugt, aus performance-gründen. Wenn jemand nen besseren Algorithmus zum erzeugen der Ausschnitte in Python parat hat, nur her damit. Aktuell kann ich nirgendwo herausfinden, was die Einleitung ist etc.

Das Code-Blöcke gefiltert werden, das guck ich mir morgen mal an. Das stimmt, das produziert echt dämliche ergebnisse. Der Rest wird derzeit nach der Gewichtung eines Terms gebildet und vorn und hinten beim term ~350 Buchstaben eingefügt, wobei nur eine maximale Anzahl an termen benutzt wird.

Gruß, Christopher.

BigMc

(Themenstarter)
Avatar von BigMc

Anmeldungsdatum:
18. März 2007

Beiträge: 1814

EnTeQuAk schrieb:

Das Problem ist, das der Text keinerlei derartige semantische Auszeichnungen hat. Daher ist es uns unmöglich derartige Informationen zu extrahieren. Die „Zusammenfassung” wird quasi direkt aus dem gerenderten HTML erzeugt, aus performance-gründen. Wenn jemand nen besseren Algorithmus zum erzeugen der Ausschnitte in Python parat hat, nur her damit. Aktuell kann ich nirgendwo herausfinden, was die Einleitung ist etc.

Sowas hab ich mir schon gedacht. Sonst hättet ihr's ja so gemacht. Warum nicht im html von <div class="box tested_for"> bis zum dazugehörigen </div> rausfiltern (das für alle typischen Boxen für Artikelanfänge) und von dem Rest den Anfang anzeigen wie bisher?

Gruß, BigMc

EnTeQuAk Team-Icon

Avatar von EnTeQuAk

Anmeldungsdatum:
17. Mai 2006

Beiträge: 3289

Bin mir nicht sicher, ob man es so macht, oder besser irgendwelche APIs für die semantik einbaut (könnte ggf. im Node-System vom Parser oder so mit verankert sein). Müssen wir mal drüber beraten. Am besten wär halt etwas, wo nicht hard-coded ist.

Gruß, Christopher.

olivier1979

Anmeldungsdatum:
22. Februar 2009

Beiträge: 454

Hallo

Ich hätte da gerade einen Vorschlag.

Wie wäre es wenn man bei der Suche eine Liste der verfügbaren Wiki-Artikel auflistet, sobald man etwas sucht.

zum Verständnis

geht man auf die Startseite vom Wiki, und gibt den Namen des Artikels an, kommt man selbstverständlich auf die richtige Seite. Doch schreibt man etwas falsch, kriegt man einen Vorschlag zu ähnlich geschriebenen Wiki-Artikel.

dies sieht dann so aus

http://wiki.ubuntuusers.de/WIKISEITENNAME

kann man diese Ergebnisse in die Suche integrieren???

dies wäre schon eine gute Hilfe

gruss

olivier1979

kaputtnik

Anmeldungsdatum:
31. Dezember 2007

Beiträge: 9245

barcc schrieb:

Außerdem werden teilweise die Titel abgeschnitten,

Das finde ich auch sehr störend...

Aber es geht was voran 👍

EnTeQuAk Team-Icon

Avatar von EnTeQuAk

Anmeldungsdatum:
17. Mai 2006

Beiträge: 3289

So, in Ausschnitten werden nun Wörter nicht mehr abgeschnitten und Titel werden nun komplett dargestellt. Bzgl. den Ausschnitten, muss ich gucken ob es etwas bringt das auf Sätze auszudehnen. Aber ich denke das geht viel zu Weit weil oftmals auch längere Sätze dann andere Suchinformationen verdecken würden. Meine Auffassung, denn ob der Satz sehr relevant ist oder nicht kann ich nicht sagen. Nur weil der Begriff oft drinn vorkommt, heißt das leider gar nix. Wenn ihr hier Vorschläge habt, wo Informationen – möglichst generisch – zu finden sind bin ich immer Offen für Ideen.

An dem Problem bzgl. der Quellcode-Ausschnitte arbeiten wir noch. Ist etwas kniffliger, und ich bin mir nicht sicher ob das geht. Denn – die Informationen sind zwar da: Nur unser Syntax-Parser ist dermaßen lahm das das einiges an Leistung und somit auch an Response-Time für euch bedeuten würde.

olivier1979 schrieb:

http://wiki.ubuntuusers.de/WIKISEITENNAME

kann man diese Ergebnisse in die Suche integrieren???

Hast du eine genaue Vorstellung wo die am besten hinpassen würden? Ich finde so irgendwie nirgendwo Platz…

Gruß, Christopher.

BigMc

(Themenstarter)
Avatar von BigMc

Anmeldungsdatum:
18. März 2007

Beiträge: 1814

Ihr könntet den Parser, jedesmal wenn er sowieso läuft, zusätzlich den Text für die Suche irgendwo speichern lassen.

Gruß, BigMc

EnTeQuAk Team-Icon

Avatar von EnTeQuAk

Anmeldungsdatum:
17. Mai 2006

Beiträge: 3289

BigMc schrieb:

Ihr könntet den Parser, jedesmal wenn er sowieso läuft, zusätzlich den Text für die Suche irgendwo speichern lassen.

Wäre ne Idee, aber wir haben derweil ohnehin schon nen Problem mit dem uns zur Verfügung stehenden Speicher. Wenn die Datenbank-Tabelle für den Wikitext alleine bereits 5GB belegt, möchte ich da nicht nochmal eine Version des Textes speichern.

Die Alternative ist natürlich den Parser schneller machen, das ist aber eher nen Long-Term-Evolution Projekt ☺

BigMc

(Themenstarter)
Avatar von BigMc

Anmeldungsdatum:
18. März 2007

Beiträge: 1814

Naja, der Text ist ja nur dazu da, ihn bei den Suchergebnissen anzuzeigen. Da reichen 100 Zeichen pro Artikel oder so.

EDIT: Im Moment sind das ja so 400 Zeichen pro Suchergebnis. Ein Byte pro Zeichen, 5000 Artikel, macht 2 Megabyte oder?

EnTeQuAk Team-Icon

Avatar von EnTeQuAk

Anmeldungsdatum:
17. Mai 2006

Beiträge: 3289

BigMc schrieb:

Naja, der Text ist ja nur dazu da, ihn bei den Suchergebnissen anzuzeigen. Da reichen 100 Zeichen pro Artikel oder so.

Wie soll ich denn das extrahieren? Ich weiß ja vorher nicht wonach der Benutzer sucht. Alternative wäre das man nen spezielles „Zusammenfassung” Macro einbaut, um die semantischen Informationen zu haben. Das müsste dann aber auch für jede Wikiseite existieren – noch son' Long-Term-Evolution Projekt 😉 Könnte man zwar auch wieder mit der Suche vereinen nach dem Motto, wo die Information fehlt nen Zusatztext einblenden „Hilf mit beim verbessern der Suche”. Müsste man mal Grundsätzlich überlegen.

Und es verbessert nur die Suche im Wiki, sehr viel Mehr wird doch (denke ich zumindest) im Forum gesucht. Dort ist sowas quasi unmöglich.

BigMc schrieb:

EDIT: Im Moment sind das ja so 400 Zeichen pro Suchergebnis. Ein Byte pro Zeichen, 5000 Artikel, macht 2 Megabyte oder?

Siehe oben, erstmal die Information haben welche „400 Zeichen” anzuzeigen sind.

Gruß, Christopher.

BigMc

(Themenstarter)
Avatar von BigMc

Anmeldungsdatum:
18. März 2007

Beiträge: 1814

Die ersten Zeichen ohne die ganzen Boxen. Also die Einleitung des Artikels. Das meinte ich doch im ersten Posting. Durchsucht werden können ja weiterhin die html-Seiten. Soll immer ein Teil des Textes angezeigt werden, der das gesuchte Wort enthält? Jetzt ist das ja auch nicht so.

EnTeQuAk Team-Icon

Avatar von EnTeQuAk

Anmeldungsdatum:
17. Mai 2006

Beiträge: 3289

BigMc schrieb:

Die ersten Zeichen ohne die ganzen Boxen. Also die Einleitung des Artikels. Das meinte ich doch im ersten Posting. Durchsucht werden können ja weiterhin die html-Seiten. Soll immer ein Teil des Textes angezeigt werden, der das gesuchte Wort enthält? Jetzt ist das ja auch nicht so.

Nun, wir bekommen ja eine Liste von Xapian, die nach Relevanz oder Datum sortiert ist. Da kann es schonmal vorkommen das einzelne Begriffe gar nicht in den Seiten vorkommen. Sollte aber normalerweise der Fall sein. Wichtig ist ja, das der Gesamtinhalt zu den gesuchten Begriffen passt.

Ich werde mal ausprobieren wie das ganze ausschaut, wenn ich bei Wikiseiten wirklich nur den Anfang benutze und dort ggf (sofern vorhanden) Passagen extrahiere die die Begriffe explizit erwähnen, sofern die Einleitung lang genug ist.

Doch auch das schließt wieder mit ein, das ich den AST (Abstract Syntax Tree) unserer Wiki-Syntax auswerte, um die Boxen rauszufiltern… bzw. um die sicher rauszufiltern ohne mir die Finger zu brechen dabei. Ansonsten kommt halt wieder immer nur son' Scheiß wie wir vorher hatten, wo bei jeder Seite „Dieser Artikel wurde mit xyz getestet…” stehen hatten 😀

Gruß, Christopher.

Antworten |