ubuntuusers.de

Absturz des Promox-Hosts beim Aufruf von cvlc in Ubuntu-VM gelegentlich nach einiger Zeit

Status: Ungelöst | Ubuntu-Version: Ubuntu 24.10 (Oracular Oriole)
Antworten |

gantim

Anmeldungsdatum:
22. Oktober 2023

Beiträge: 58

Ein selbstgeschriebenes Skript verwende ich zur zeitgesteuerten Aufnahme von Sendungen aus dem Fernsehen. Normalerweise vom Kathrein-Receiver, es funktioniert prinzipiell auch vom AVM DVB-C-Repeater. Das nutze ich aber sehr ungern, weil der nur einen Empfänger hat und man dann die Aufnahme abbricht, wenn man Fritz!TV auf dem Handy startet. Aber gut.

Lange Zeit hat es gut funktioniert. Das Skript läuft schon immer in einer VM mit Ubuntu. Zunächst lief die VM auf dem Synology-DS218+NAS im VMM, später im Proxmox auf einem ausgemusterten Notebook, nun auf Proxmox auf dem ThinkCentre. Ich meine, dass es mit dem Umzug auf das Lenovo ThinkCentre M715q Gen2 begonnen hat Probleme zu machen, bin aber nicht sicher.

Dieses ThinkCentre lief eigentlich zuverlässig, aber irgendwann hat es Probleme gemacht. Ist nicht ansprechbar, nur hartes Ausschalten hilft (es läuft headless). Es hat nicht lange gedauert, bis mir der Zusammenhang auffiel: Es ist nur passiert, wenn ich eine Aufnahme aus dem Fernsehen gemacht habe. Manchmal hört die Aufnahme mittendrin auf. Manchmal nach einer halben Stunde, manchmal nach anderthalb. Danach ist der Stromverbrauch hoch (es hängt am Messgerät, Home Assistant loggt den Verbrauch und ich habe eine Warnung angelegt, wenn der Verbrauch hoch bleibt wegen dieses Problems) und der Rechner ist nicht ansprechbar. Die meisten Aufnahmen funktionieren aber weiterhin ohne Probleme, schätze es ist so jedes 4. Mal bei einer Aufnahme von im Schnitt 3 Stunden. Oder so.

Anbei das Skript, das ausgeführt wird, wenn der Rechner hängenbleibt. Die kritische Zeile war also

1
timeout "300m" cvlc "http://192.168.144.125:8555/media/TV/131073-196671" --aout alsa --no-dbus --meta-title "Snooker UK Championship" --meta-author "#3049-1732570774#" --network-caching=1500 --no-ts-cc-check --sout=file/ts:$TVBASEDIR/Recordings/"20241126_134400_KTV_Eurosport 1_Snooker UK Championship.mpg"

und das ganze hängt nach ca 1:31:23 (so lange ist die Aufnahme, und es kommt mit der Stromverbauchsanzeige hin) Minuten derart, dass nicht nur die VM zerbröselt, sondern gleich der zugehörige Proxmox-Host!

Bisher mache ich jede Stunde einmal top in ein Logfile, um zu sehen, was so CPU braucht. Letztes Mal war es CUPS, das 100% gebraucht hat. Da aus dieser VM nicht gedruckt wird, habe ich das einfach runtergeworfen - aber das hat wohl keinen Zusammenhang mit dem Problem gehabt. Im syslog sehe ich nichts, das mir direkt so etwas erklären könnte.

Jemand eine Idee, wie ich das am schnellsten/einfachsten/besten analysiere, was eigentlich passiert?

rklm Team-Icon

Projektleitung

Anmeldungsdatum:
16. Oktober 2011

Beiträge: 13131

gantim schrieb:

Jemand eine Idee, wie ich das am schnellsten/einfachsten/besten analysiere, was eigentlich passiert?

Du könntest Das Kommando mit strace ausführen, Ausgabe in eine Datei schreiben lassen und mit less +G datei am Ende reinschauen, wenn der Prozess hängt. Das könnte einen Hinweis geben.

gantim

(Themenstarter)

Anmeldungsdatum:
22. Oktober 2023

Beiträge: 58

Im strace war ein ungültiges Dateihandle zu sehen.

Bisher habe ich direkt auf ein Samba-Share auf einer Synology DS218+ aufgenommen, das mittels /etc/fstab gemountet war. Nun habe ich umgestellt, dass zuerst die Aufnahme in /tmp durchgeführt wird (Platz reicht dafür) und es hinterher von /tmp an den Bestimmungsort verschoben wird. Seither habe ich keine Probleme mehr gehabt.

Möglicherweise gehe ich dem noch genauer nach, ich finde es ein Unding, dass ein Share auf einer Ubuntu-VM, der in irgendeiner Weise benutzt wird, den Proxmox-Host-crashen kann. Das darf nicht möglich sein - hat aber nichts mit Ubuntu zu tun. Der Tipp mit strace war super und hat offensichtlich geholfen, danke schön!

rklm Team-Icon

Projektleitung

Anmeldungsdatum:
16. Oktober 2011

Beiträge: 13131

gantim schrieb:

Im strace war ein ungültiges Dateihandle zu sehen.

Oh.

Bisher habe ich direkt auf ein Samba-Share auf einer Synology DS218+ aufgenommen, das mittels /etc/fstab gemountet war. Nun habe ich umgestellt, dass zuerst die Aufnahme in /tmp durchgeführt wird (Platz reicht dafür) und es hinterher von /tmp an den Bestimmungsort verschoben wird. Seither habe ich keine Probleme mehr gehabt.

Gut! Der Ansatz scheint mir sowieso besser, weil Du dann bei Fehlern nicht remote schreiben musst, was langsam ist. Eine ganze Datei auf ein Share zu kopieren / verschieben ist sicherlich effizienter.

Möglicherweise gehe ich dem noch genauer nach, ich finde es ein Unding, dass ein Share auf einer Ubuntu-VM, der in irgendeiner Weise benutzt wird, den Proxmox-Host-crashen kann. Das darf nicht möglich sein - hat aber nichts mit Ubuntu zu tun. Der Tipp mit strace war super und hat offensichtlich geholfen, danke schön!

Das ist in der Tat nicht gut. Ggf. wird aus Deiner Recherche auch noch ein Bug-Report an Proxmox.

gantim

(Themenstarter)

Anmeldungsdatum:
22. Oktober 2023

Beiträge: 58

Sieht nicht gut aus. Gestern ist es wieder abgestürzt. Nachteil: Nach dem Booten war in /tmp weder die Aufnahme noch das strace-File vorhanden. Offensichtlich beim Booten gelöscht. Nun habe ich umgestellt, dass beides in $HOME zwischengespeichert wird statt in /tmp und schau mal, ob es wieder auftritt und was dann in strace steht.

Interessant: Sonst war der Stromverbrauch, wenn der Rechner nicht erreichbar ist, bei 22 Watt, jetzt mit Schreiben in /tmp waren es nur 18 Watt. Das Ziel ändert anscheinend etwas. Leider ist meine Warnung im Home Assistant dadurch nicht angesprungen, die hatte ich auf "2 Stunden lang über 20 Watt" eingestellt. Ich glaube, ich teste demnächst, solange der Stromverbrauch mehr als 3 Minuten über 15 Watt ist, jede Minute ob der Rechner auf Ping reagiert.

Auch habe ich mal im Proxmox-Forum gefragt, was man für die Analyse machen könnte, wieso es den Host runterzieht.

Was ich auf der Ubuntu-VM und dem Proxmox Host mache, ist per crontab jede Stunde die Ausgabe von top -bn1 in eine Datei zu schreiben. Da war aber nichts Auffälliges zu sehen. Immerhin weiß ich: Letztes Logging von top war gestern etwa 20 Uhr, der Boot war etwa 4 Stunden später. Weder Host noch VM haben den cronjob in der Zeit ausgeführt.

Edit: Mist, beim Umstellen des Pfades habe ich einen Fehler gemacht und vlc hat nichts mehr geschrieben. Naja, ab sofort geht es wieder.

Antworten |