ubuntuusers.de

Baustelle/Howto/llama.cpp

Status: Ungelöst | Ubuntu-Version: Ubuntu 24.04 (Noble Numbat)
Antworten |
Dieses Thema ist die Diskussion des Artikels Baustelle/Howto/llama.cpp.

verdooft

Anmeldungsdatum:
15. September 2012

Beiträge: 4556

Llama.cpp - lokal LLMs ausführen mit dem Schwerpunkt auf Text zu Text.

Das Bild kann gelöscht werden. Hab das mit der maximalen Breite von 600 Pixel erst nach dem Upload gesehen:

https://wiki.ubuntuusers.de/Baustelle/Howto/llama.cpp/llama-server-beispiel.png/

Achso, ich habe keine dezidierte Grafikkarte, drum kann ich nur die Nutzung per CPU testen. Das ist der Grund, warum der Artikel nicht als normaler Wikiartikel geeignet sein wird. Außerdem verstehe ich nicht alle Optionen. Die Einrichtung, inklusive OpenBlas und Kompilieren, wurde in einer frischen Ubuntu 24.04.2 VM getestet. Das HowTo ist aber noch lange nicht fertig.

Als Erinnerung an mich noch paar ToDos:

  • Übersicht über paar coole Modelle (Tabelle?)

  • Eventuell die kurzen Schreibweisen der Optionen doch noch der Tabelle hinzufügen

  • Weitere Beispiele zum selbst Quantisieren (llama-quantize), Multimodalmodellen (llama-mtmd-cli), llama-bench...

  • Mehr Wikiseiten zum Verständnis und Links am Ende einfügen

  • Darauf aufmerksam machen, dass mans auch als Deb-Paket bauen kann, verwende ich aufgrund der hohen Updatefrequenz (oft mehrmals am Tag) nicht

sh4711 Team-Icon

Moderator

Anmeldungsdatum:
13. Februar 2011

Beiträge: 1339

verdooft schrieb:

... Als Erinnerung an mich noch paar ToDos:

  • Übersicht über paar coole Modelle (Tabelle?)

Ja, wäre definitiv eine große Hilfe, da man sonst als Neuling bei der Masse auf huggingface.co den Überblick verliert.

Vielen Dank schon mal bis hierher für dein Howto!

Gruß SH

verdooft

(Themenstarter)

Anmeldungsdatum:
15. September 2012

Beiträge: 4556

Kann gelöscht werden, ich nutze kein Ubuntu mehr.

verdooft

(Themenstarter)

Anmeldungsdatum:
15. September 2012

Beiträge: 4556

Werds doch nochmal in Angriff nehmen. Wahrscheinlich wirds erstmal ein sehr knapper Artikel, der dann mit der Zeit erweitert wird. llama.cpp kompilieren und die Hauptanwendung ausführen werden dann ganz an den Anfang gesetzt. Web UI, selbst quantisieren, etc. folgen dann nach und nach.

llama.cpp wird jetzt konsequent klein geschrieben, Swappiness anzupassen habe ich rausgenommen, weil ich nicht sicher bin, ob das irgendwas bringt.

sh4711 Team-Icon

Moderator

Anmeldungsdatum:
13. Februar 2011

Beiträge: 1339

verdooft schrieb:

Werds doch nochmal in Angriff nehmen.

Vielen Dank!

Antworten |