Llama.cpp - lokal LLMs ausführen mit dem Schwerpunkt auf Text zu Text.
Das Bild kann gelöscht werden. Hab das mit der maximalen Breite von 600 Pixel erst nach dem Upload gesehen:
https://wiki.ubuntuusers.de/Baustelle/Howto/llama.cpp/llama-server-beispiel.png/
Achso, ich habe keine dezidierte Grafikkarte, drum kann ich nur die Nutzung per CPU testen. Das ist der Grund, warum der Artikel nicht als normaler Wikiartikel geeignet sein wird. Außerdem verstehe ich nicht alle Optionen. Die Einrichtung, inklusive OpenBlas und Kompilieren, wurde in einer frischen Ubuntu 24.04.2 VM getestet. Das HowTo ist aber noch lange nicht fertig.
Als Erinnerung an mich noch paar ToDos:
Übersicht über paar coole Modelle (Tabelle?)
Eventuell die kurzen Schreibweisen der Optionen doch noch der Tabelle hinzufügen
Weitere Beispiele zum selbst Quantisieren (llama-quantize), Multimodalmodellen (llama-mtmd-cli), llama-bench...
Mehr Wikiseiten zum Verständnis und Links am Ende einfügen
Darauf aufmerksam machen, dass mans auch als Deb-Paket bauen kann, verwende ich aufgrund der hohen Updatefrequenz (oft mehrmals am Tag) nicht