ubuntuusers.de

smartlocate – Bilder nach Inhalten finden

Status: Gelöst | Ubuntu-Version: Nicht spezifiziert
Antworten |

NormanTUD

Anmeldungsdatum:
31. Mai 2020

Beiträge: 3

Hi,

ich arbeite gerade an einem Projekt, was eventuell den ein oder anderen hier interessieren könnte. Ich nenne es smartlocate (vorher ailocate, es ist noch nicht alles auf den neuen Namen geupdatet).

https://github.com/NormanTUD/smartlocate

Was es macht ist das folgende:

Mit dem Kommando

1
smartlocate --dir $HOME/Bilder --index --debug --ocr --describe --face --yolo

erzeugt es einen Index aller Bilder in dem $HOME/Bilder-Ordner, OCRd sie, erstellt mit einem KI-Modell eine Beschreibung des Bildes (alles lokal), und versucht mit YOLO zu erkennen, was auf dem Bild zu sehen ist (per default mit dem yolov5s.pt-Modell, das 1000 Alltagsgegenstände gut unterscheiden kann) und versucht alle Gesichter zu finden und Personen zuzuordnen, damit man sie suchen kann.

Die Daten verlassen euren Rechner NICHT. Alles wird lokal ausgelesen, berechnet und gespeichert.

Dann erlaubt es, mit

1
smartlocate stichwort

nach allen Bildern zu suchen, die das Stichwort beinhalten. Entweder als Text, oder per erkanntes Objekt aus YOLO, oder in den Beschreibungen der Bild-Beschreibungs-KI ("Salesforce/blip-image-captioning-large").

Ich habe auch eingefügt, dass man mit --face_recognition Gesichter erkennen kann. Wenn er ein Gesicht erkennt, versucht er zu schauen, ob es ein bereits Bekanntes ist. Wenn ja, wird es automatisch hinzugefügt. Wenn nein, fragt er euch, welcher Name dem Gesicht zugeordnet werden soll; darauf erkennt es das in späteren Bildern wieder, so dass man nicht für jedes Bild selbst wieder alles neu eingeben muss.

Ich würde gern mit dem Post hier 2 Sachen machen:

1. Das Projekt bekannter machen, weil ich denke dass es einigen was bringen könnte 2. Mitstreiter finden, die vielleicht Bugs melden oder mitprogrammieren. Habe noch viele weitere Ideen, und würde das gern auf andere Dinge als Bilder ausweiten, aber ich weiß nicht ob ich allein die Zeit dafür finde.

Was Abhängigkeiten usw. angeht hab ich versucht es so zu machen, dass es alles was es braucht selbst installiert. Ich hoffe, dass das bei allen halbwegs klappt.

Würde mich über Feedback freuen!

Bilder

verdooft

Anmeldungsdatum:
15. September 2012

Beiträge: 4368

Huhu,

interessantes Projekt. Schaue ich mir mal an, wenn eine Vm eingerichtet ist. Hab zwar keine Bilder, eher nur paar Screenshots, aber kann ja paar bei Pixabay oder so laden. Eine geeignete GPU habe ich eh nicht, aber wenn das Modell "nur" 1000 Objekte erkennt, gehts vielleicht auch so zügig genug.

Braucht das Modell die Bilder in einer bestimmten Auflösung, oder skaliert es die vor der Indexerstellung intern passend runter/rauf?

Hab bisher nur größere Vision-Modelle, zuletzt Qwen2-VL-72B-Instruct, verwendet, aber brauchts ohne nutzbaren VRam in deinem Anwendungsszenario zu lange.7b und 2b gibts zwar auch, das große schätze ich wegen der brauchbaren Ausgaben in Deutsch.

Für mehr Verbreitung könnte man das im LocalLLaMA-Subreddit posten, zumindest sehe ich da oft Postings, die nichts mehr mit Llama (Meta Modelle) zu tun haben.

Zum Mitprogrammieren, gerade das Einbeziehen von Textdokumenten finde ich interessant, bin ich leider nicht fit genug.

NormanTUD

(Themenstarter)

Anmeldungsdatum:
31. Mai 2020

Beiträge: 3

Danke!

Also, zu deinen Fragen: eine GPU hab ich auch nicht, es geht also auch ohne, wobei mit natürlich schneller beim Indexieren wäre.^^

Bzgl. der Auflösung: darum kümmert sich das Programm. Beim OCRen gab es bisher bei sehr großen Dateien noch Probleme, ich hab bei mir das Limit auf ca 5 MB festgelegt pro Datei. Die, die größer sind, werden fürs OCR erstmal geskippt. Aber ich kann noch einbauen dass sie runterskaliert werden (dauert aber noch ein wenig).

Und mit dem LocalLLaMa ist ne gute Idee. Ich entwickel noch ein bisschen weiter, und dann werde ich es da posten.

VG

Antworten |